大型视觉语言模型 (LVLM) 具有显着先进的图像理解能力。它们的理解和推理能力在自动驾驶场景中具有广阔的应用前景。然而,现有的研究通常集中在前视图和场景内的部分物体,难以实现全面的场景理解。同时,现有的LVLM缺乏2D和3D之间的映射关系,以及3D对象定位和指令理解的集成不足。为了解决这些限制,我们首先引入 NuInteract,这是一个大型数据集,拥有超过 150 万个多视图图像语言对,涵盖密集的场景标题和多样化的交互任务。此外,我们提出了 DriveMonkey,这是一个简单而有效的框架,它使用一系列可学习的查询将 LVLM 与空间处理器无缝集成。空间处理器被设计为即插即用组件,可以使用预先训练的 3D 检测器进行初始化,以改善 3D 感知。我们的实验表明,DriveMonkey 的性能优于一般的 LVLM,特别是在 3D 视觉基础任务上实现了 9.86% 的显着改进。数据集和代码将在此 https URL 发布 ...
深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...
视觉语言动作(VLA)模型将大型视力语言骨架适应图像和说明对机器人动作的映射。但是,盛行的VLA解码器要么以固定的从左到右顺序产生自动策略,要么附加连续扩散或持续的扩散或流动匹配的头部在主干外部,要求进行专门的训练和迭代抽样,从而阻碍统一的可扩展体系结构。我们提出了离散的扩散VLA,这是一种单转化的策略,该策略将离散扩散的动作块分散化,并以与VLM骨架相同的跨渗透目标进行训练 ...
视觉语言动作(VLA)模型的出现标志着从传统的基于策略的控制到广义机器人技术的范式转变,将视觉语言模型(VLM)从被动序列生成器重新构建为在复杂动态环境中进行操纵和决策的主动代理。这项调查深入研究了先进的 VLA 方法,旨在提供清晰的分类法并对现有研究进行系统、全面的回顾。它对不同场景下的 VLA 应用进行了全面分析,并将 VLA 方法分为几种范式:基于自回归、基于扩散、基于强化、混合和专门方法;同时详细检查他们的动机、核心战略和实施情况。此外,还介绍了基础数据集、基准测试和模拟平台。在当前 VLA 格局的基础上,该综述进一步提出了对关键挑战和未来方向的看法,以推进 VLA 模型和通用机器人技术的研究。通过综合最近三百多项研究的见解,本次调查描绘了这个快速发展的领域的轮廓,并强调了将塑造可扩展的通用 VLA 方法的发展的机遇和挑战 ...
大型基础模型已经对视觉和语言中的复杂问题表现出了强大的开放世界泛化能力,但机器人技术尚未达到类似的泛化水平。一个根本挑战是模型表现出有限的零样本能力,这阻碍了它们有效推广到未见过的场景的能力。在这项工作中,我们提出了 GeneralVLA(具有知识引导轨迹规划的通用视觉语言动作模型),这是一种分层视觉语言动作(VLA)模型,可以更有效地利用基础模型的泛化,实现零样本操作并自动生成机器人数据。特别是,我们研究了一类分层 VLA 模型,其中高级 ASM(可供性分割模块)经过微调以感知场景的图像关键点可供性;中级 3DAgent 执行任务理解、技能知识和轨迹规划,以生成指示所需机器人末端执行器轨迹的 3D 路径。然后,中间 3D 路径预测将作为能够精确操纵的低级 3D 感知控制策略的指导。与其他方法相比,我们的方法不需要现实世界的机器人数据收集或人工演示,这使得它更适合不同的任务和观点。根据经验,GeneralVLA 成功生成了 14 项任务的轨迹,明显优于 VoxPoser 等最先进的方法。与使用人类演示或通过 VoxPoser、Scaling-up 和 Code-As-Policies 生成的数据进行训练相比,生成的演示可以训练更强大的行为克隆策略。我们相信 GeneralVLA 可以成为一种可扩展的方法,既可以为机器人生成数据,也可以在零样本环境中解决新任务。代码:此 https URL。网站:此 https URL ...
近年来,汽车制造商和科技公司一直在竞相开发自动驾驶汽车。看来这场比赛的主要参数是谁将拥有第一辆上路的汽车。本文的目标是在方程中添加两个额外的关键参数。第一个是安全保障的标准化——每辆自动驾驶汽车必须满足的最低要求是什么,我们如何验证这些要求。第二个参数是可扩展性——导致成本释放的工程解决方案将无法扩展到数百万辆汽车,这会将这一领域的兴趣推向一个利基的学术角落,并推动整个领域进入“自动驾驶的冬天”。在本文的第一部分中,我们提出了一种用于安全保证的白盒、可解释的数学模型,我们将其称为责任敏感安全(RSS)。在第二部分中,我们描述了一个符合我们的安全保证要求并且可扩展到数百万辆汽车的系统设计 ...
大型语言模型(LLM)的快速发展导致开源社区和行业之间存在巨大的知识差距,这主要是因为后者依赖闭源的高质量数据和培训方法。为了解决这个问题,我们引入了 PCMind-2.1-Kaiyuan-2B,这是一个完全开源的 20 亿参数模型,专注于提高资源限制下的训练效率和效果。我们的方法包括三项关键创新:分位数数据基准方法,用于系统地比较异构开源数据集并提供有关数据混合策略的见解;多阶段范式内的战略选择性重复方案,以有效利用稀疏的高质量数据;以及按质量订购样本的多领域课程培训政策。在高度优化的数据预处理流程和针对 FP16 稳定性的架构修改的支持下,Kaiyuan-2B 实现了与最先进的完全开源模型竞争的性能,展示了针对资源有限的预训练的实用且可扩展的解决方案。我们在 Apache 2.0 许可证下在此 https URL 发布所有资产(包括模型权重、数据和代码) ...
自动驾驶是一项复杂且具有挑战性的任务,旨在通过场景理解和推理来进行安全运动规划。虽然纯视觉自动驾驶方法最近取得了显着的性能,但通过增强场景理解,仍然需要解决一些关键问题,包括缺乏推理、泛化性能低和长尾场景。在本文中,我们提出了 VLP,一种新颖的视觉语言规划框架,它利用语言模型来弥合语言理解和自动驾驶之间的差距。 VLP 通过加强源记忆基础和自动驾驶汽车的上下文理解来增强自动驾驶系统。与之前的最佳方法相比,VLP 在具有挑战性的 NuScenes 数据集上实现了最先进的端到端规划性能,平均 L2 错误率和冲突率分别降低了 35.9% 和 60.5%。此外,VLP在具有挑战性的长尾场景中表现出更好的性能,并且在面对新的城市环境时表现出强大的泛化能力 ...
本文采用参数化方法研究Fredholm积分微分方程组的多点边值问题。单独研究了退化核的情况,为此我们获得了适定性条件并提出了一些算法来找到问题的近似和数值解。然后我们建立了 Fredholm 积分微分方程组多点问题适定性的充分必要条件,并开发了一些求解其近似解的算法。这些算法基于具有简并核的积分微分方程组的逼近问题的解 ...
深度学习模型在广泛的视觉任务中表现出了卓越的性能。然而,它们在测试时通常容易受到域转移的影响。为了缓解这些漏洞,开发了测试时训练(TTT)方法,其中在训练时与主要任务同时解决次要任务,然后在测试时用作自监督代理任务。在这项工作中,我们提出了一种基于多尺度特征图和离散潜在表示之间互信息最大化的新型无监督 TTT 技术,该技术可以作为辅助聚类任务集成到标准训练中。实验结果证明了在不同流行的测试时间适应基准上具有竞争性的分类性能 ...