视觉语言动作模型(VLA)的最新进展扩大了体现智能的能力。但是,在复杂的3D环境中实时决策中仍然存在重大挑战,这些环境需要在动态条件下进行二级响应,高分辨率感知和战术推理。为了推进该领域,我们介绍了Combatvla,这是一种为3D动作角色扮演游戏(ARPG)中战斗任务优化的有效VLA模型 ...

0 0 0 0 2025/03/17 arXiv:2503.09527v1 蔡明方

双手互动是由于自相似性,复杂的表达和手的遮挡而进行分析的最具挑战性信号之一。尽管已经提出了几个数据集用于双手交互分析,但所有数据集并未实现1)不同和现实的图像外观以及2)同时构成了多样化和大规模的地面图(GT)3D。在这项工作中,我们提出了RE:Destreathand,这是一个实现两个目标的重新互动相互作用的手的数据集 ...

0 0 0 0 2025/03/11 arXiv:2310.17768v1 蔡明方

自然语言也许是人类将任务传达给机器人的最灵活,最直观的方式。在模仿学习中的先前工作通常需要使用任务ID或目标图像指定每个任务 - 在开放世界环境中通常是不切实际的。另一方面,以前的教学方法中的先前方法允许代理行为以语言为指导,但通常在观测值,执行器或语言中假设结构将其适用性限制在诸如机器人技术之类的复杂设置中 ...

0 0 0 0 2025/03/09 arXiv:2005.07648v2 蔡明方

大型的多模型模型(LMM)迎来了一个新的人工智能时代,并以语言和愿景融合了能力,以形成强大的视觉基础代理。假定这些代理会在无数的任务中表现出色,并可能接近通用人工智能。但是,现有的基准无法充分挑战或展示在复杂的现实环境中LMM的全部潜力 ...

0 0 0 0 2025/03/09 arXiv:2408.06327v1 蔡明方

通用体现的代理旨在了解用户的自然说明或意图,并精确地采取行动以完成通用任务。最近,基于基础模型,尤其是视觉语言动作模型(VLAS)的方法显示出了很好的解决语言条件操纵(LCM)任务的巨大潜力。但是,现有的基准不能充分满足VLA和相对算法的需求 ...

0 0 0 0 2025/03/09 arXiv:2412.18194v1 蔡明方

深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...

0 0 0 0 2025/03/08 arXiv:2405.14093v4 蔡明方

本文介绍了对视觉语言动作(VLA)模型的AI生成的回顾,总结了关键方法,发现和未来的方向。内容是使用大语言模型(LLM)生产的,仅用于演示目的。这项工作并不代表原始研究,而是强调了AI如何帮助自动化文献评论 ...

0 0 0 0 2025/03/06 arXiv:2502.06851v2 蔡明方

最近,多模式的大语言模型(MLLM)表现出强烈的视觉理解和决策能力,从而探索了在未知环境中自主改善MLLM的探索。但是,外部反馈(例如人类或环境反馈)并不总是可用。为了应对这一挑战,现有的方法主要集中于通过投票和评分机制增强MLLM的决策能力,而在改善未知环境中MLLM的环境理解方面几乎没有付出努力 ...

0 0 0 0 2025/03/05 arXiv:2410.03303v1 蔡明方

尽管在各种应用程序中取得了广泛的成功,但由于缺乏对现实世界的物理细微差别的直接经验,大型语言模型(LLM)在解决基本的物理推理或执行机器人技术任务时通常会偶然发现。为了解决这些问题,我们提出了一个使用不完美的世界模型(Glimo)的基础大语言模型,该模型利用代理世界模型(例如模拟器)来收集和综合移动数据。 Glimo合并了基于LLM的代理数据生成器,以自动创建高质量和不同的指令数据集 ...

0 0 0 0 2025/03/01 arXiv:2410.02742v2 蔡明方

模仿学习的最新进展已显示出对机器人控制和体现智能的巨大希望。但是,在各种安装的相机观测中实现强大的概括仍然是一个至关重要的挑战。在本文中,我们介绍了一个基于视频的空间感知框架,该框架利用3D空间表示来解决环境变异性,重点是处理照明变化 ...

0 0 0 0 2025/03/01 arXiv:2411.17458v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)