在大型,多样的数据集上预先训练的视觉语言操作(VLA)模型对通用机器人操纵的巨大潜力。但是,主要的瓶颈仍在将这些模型调整为下游任务时,尤其是当机器人的实施例或任务本身与预训练数据不同时。这种差异导致行动分布的重大不匹配,要求大量数据并计算有效的微调 ...
导航是具有视觉运动能力的智能体的一项基本技能。我们引入了导航世界模型(NWM),这是一种可控视频生成模型,可以根据过去的观察和导航动作来预测未来的视觉观察。为了捕捉复杂的环境动态,NWM 采用条件扩散 Transformer (CDiT),对人类和机器人代理的各种以自我为中心的视频集合进行训练,并将参数扩展到 10 亿个 ...
近年来,大型语言模型(LLMS)的发展已大大提高,通过多模式大语模型(MLLM)将其功能扩展到多模式任务。但是,由于视频的动态和信息密集的性质,视频理解仍然是一个具有挑战性的领域。在处理视频内容时,现有模型在空间分辨率和时间覆盖范围之间的折衷努力 ...
传统的电子商务搜索系统采用多阶段级联体系结构(MCA),通过召回,预先排名和排名阶段逐步过滤项目。这些系统虽然有效地平衡了计算效率与业务转化,但跨阶段的计算和优化客观碰撞遭受了零散的损失,这最终限制了其性能上限。为了解决这些问题,我们建议\ textbf {OneSearch},这是第一个用于电子商务搜索的工业部署的端到端生成框架 ...
编写软件测试是费力且耗时的。为了解决这个问题,先前的研究引入了各种自动测试生成技术。该领域的研究方向进行了充分探索的是单位测试生成,其中人工智能(AI)技术为正在测试的方法/类创建测试 ...
单元测试在软件开发中起关键作用,从而提高了软件质量和可靠性。但是,手动生成有效的测试用例是耗时的,引起了对单元测试研究的兴趣。最近,大型语言模型(LLMS)在各种单元测试任务中显示出潜力,包括测试生成,断言产生和测试进化,但是现有研究的范围有限,并且缺乏对LLMS有效性的系统评估 ...
大型语言模型(LLM)是否具有心理理论?引入了大量论文和基准,以评估当前模型是否能够发展这种社会智能的关键能力。但是,所有这些都依靠具有简单模式的有限数据集,这些数据集可能会导致评估中有问题的盲点和模型功能高估。我们介绍了Exploretom,这是第一个框架,旨在使大规模生成多样化和具有挑战性的思维数据数据以进行健壮的培训和评估 ...
对象目标导航(ObjectNAV)是体现AI的基本任务,要求代理在以前看不见的环境中找到目标对象。此任务特别具有挑战性,因为它需要感知过程和认知过程,包括对象识别和决策。尽管视觉基础模型的快速发展驱动了感知的重大进步,但认知方面的进步仍然受到限制,主要仅限于通过模拟器的下降或明确依赖预定义的启发式规则的隐性学习 ...