图形用户界面(GUI)代理具有巨大的商业和社会价值,由高级多模式大语模型(MLLM)提供动力的GUI代理具有出色的潜力。当前,现有的GUI代理通常利用跨页面的多步操作的顺序发作作为先前的GUI知识,该知识未能捕获页面之间的复杂过渡关系,这使得代理人对GUI环境深入了解并推广到新场景的挑战。因此,我们设计了一个自动化管道,以将顺序发作转换为页面图,该插曲图明确地模拟了由动作自然连接的页面的图形结构 ...
语言条件的机器人操纵是一个新兴领域,旨在通过教机器人理解和执行自然语言传达的指令来实现人类与机器人之间的无缝沟通和合作。这个跨学科领域将场景的理解,语言处理和政策学习整合在一起,以弥合人类指示与机器人行动之间的差距。在这项综合调查中,我们系统地探讨了语言条件的机器人操纵的最新进展 ...
机器可以思考吗?由于艾伦·图灵(Alan Turing)在1950年提出了这个问题,因此由于缺乏稳固的数学基础,没有人能直接答案。在本文中,我们向这个目标介绍了一个分类框架,并有两个主要结果。首先,我们通过预发进行了对象表示,将自我意识的概念引入了自我意识的绝对类似物,以及其执行和评估的相应算法 ...
由于对特定于交通的数据的培训有限,并且缺乏专用的基准测试,因此多模式大型语言模型(MLLM)在自主驾驶(AD)中的应用面临重大挑战。这项研究通过提出TB Bench来解决这些问题,TB Bench是一种综合基准测试,旨在评估MLLM从以自我为中心的观点中理解八个感知任务的交通行为。我们还介绍了Vision语言说明调谐数据集TB-100K和TB-250K,以及简单而有效的基线 ...
大规模的文本到语音(TTS)模型通常分为自回归和非自动回忆系统。尽管自回归系统在语音自然性方面具有某些优势,但它们的逐个代际生成机制使得很难精确控制综合语音的持续时间。这是需要严格视听同步的视频配音等应用程序中的关键限制 ...
无培训一致的文本对图像生成描绘了不同图像的相同主题是广泛关注的话题。朝这个方向的现有作品主要依赖跨框架的自我注意力;通过允许在自我注意计算过程中其他框架中的 Token 上的 Token 来提高主题一致性。虽然对单一主题有用,但我们发现它在缩放到多个字符时会挣扎 ...
近年来,大型语言模型(LLMS)的发展已大大提高,通过多模式大语模型(MLLM)将其功能扩展到多模式任务。但是,由于视频的动态和信息密集的性质,视频理解仍然是一个具有挑战性的领域。在处理视频内容时,现有模型在空间分辨率和时间覆盖范围之间的折衷努力 ...
通过大规模高质量的语音数据集的可用性,言语理解和产生的发展已大大加快。其中,ASR和TT被认为是最确定和最基本的任务。但是,对于粤语(Yue Chinese),大约84岁 ...