视觉语言动作(VLA)模型的出现标志着从传统的基于策略的控制到广义机器人技术的范式转变,将视觉语言模型(VLM)从被动序列生成器重新构建为在复杂动态环境中进行操纵和决策的主动代理。这项调查深入研究了先进的 VLA 方法,旨在提供清晰的分类法并对现有研究进行系统、全面的回顾。它对不同场景下的 VLA 应用进行了全面分析,并将 VLA 方法分为几种范式:基于自回归、基于扩散、基于强化、混合和专门方法;同时详细检查他们的动机、核心战略和实施情况。此外,还介绍了基础数据集、基准测试和模拟平台。在当前 VLA 格局的基础上,该综述进一步提出了对关键挑战和未来方向的看法,以推进 VLA 模型和通用机器人技术的研究。通过综合最近三百多项研究的见解,本次调查描绘了这个快速发展的领域的轮廓,并强调了将塑造可扩展的通用 VLA 方法的发展的机遇和挑战 ...

0 0 0 0 2026/02/25 arXiv:2509.19012v3 chenlei

大型基础模型已经对视觉和语言中的复杂问题表现出了强大的开放世界泛化能力,但机器人技术尚未达到类似的泛化水平。一个根本挑战是模型表现出有限的零样本能力,这阻碍了它们有效推广到未见过的场景的能力。在这项工作中,我们提出了 GeneralVLA(具有知识引导轨迹规划的通用视觉语言动作模型),这是一种分层视觉语言动作(VLA)模型,可以更有效地利用基础模型的泛化,实现零样本操作并自动生成机器人数据。特别是,我们研究了一类分层 VLA 模型,其中高级 ASM(可供性分割模块)经过微调以感知场景的图像关键点可供性;中级 3DAgent 执行任务理解、技能知识和轨迹规划,以生成指示所需机器人末端执行器轨迹的 3D 路径。然后,中间 3D 路径预测将作为能够精确操纵的低级 3D 感知控制策略的指导。与其他方法相比,我们的方法不需要现实世界的机器人数据收集或人工演示,这使得它更适合不同的任务和观点。根据经验,GeneralVLA 成功生成了 14 项任务的轨迹,明显优于 VoxPoser 等最先进的方法。与使用人类演示或通过 VoxPoser、Scaling-up 和 Code-As-Policies 生成的数据进行训练相比,生成的演示可以训练更强大的行为克隆策略。我们相信 GeneralVLA 可以成为一种可扩展的方法,既可以为机器人生成数据,也可以在零样本环境中解决新任务。代码:此 https URL。网站:此 https URL ...

0 0 0 0 2026/02/25 arXiv:2602.04315v1 chenlei

近年来,汽车制造商和科技公司一直在竞相开发自动驾驶汽车。看来这场比赛的主要参数是谁将拥有第一辆上路的汽车。本文的目标是在方程中添加两个额外的关键参数。第一个是安全保障的标准化——每辆自动驾驶汽车必须满足的最低要求是什么,我们如何验证这些要求。第二个参数是可扩展性——导致成本释放的工程解决方案将无法扩展到数百万辆汽车,这会将这一领域的兴趣推向一个利基的学术角落,并推动整个领域进入“自动驾驶的冬天”。在本文的第一部分中,我们提出了一种用于安全保证的白盒、可解释的数学模型,我们将其称为责任敏感安全(RSS)。在第二部分中,我们描述了一个符合我们的安全保证要求并且可扩展到数百万辆汽车的系统设计 ...

0 0 0 0 2026/02/10 arXiv:1708.06374v6 chenlei

大型语言模型(LLM)的快速发展导致开源社区和行业之间存在巨大的知识差距,这主要是因为后者依赖闭源的高质量数据和培训方法。为了解决这个问题,我们引入了 PCMind-2.1-Kaiyuan-2B,这是一个完全开源的 20 亿参数模型,专注于提高资源限制下的训练效率和效果。我们的方法包括三项关键创新:分位数数据基准方法,用于系统地比较异构开源数据集并提供有关数据混合策略的见解;多阶段范式内的战略选择性重复方案,以有效利用稀疏的高质量数据;以及按质量订购样本的多领域课程培训政策。在高度优化的数据预处理流程和针对 FP16 稳定性的架构修改的支持下,Kaiyuan-2B 实现了与最先进的完全开源模型竞争的性能,展示了针对资源有限的预训练的实用且可扩展的解决方案。我们在 Apache 2.0 许可证下在此 https URL 发布所有资产(包括模型权重、数据和代码) ...

0 0 0 0 2026/02/04 arXiv:2512.07612v1 chenlei

自动驾驶是一项复杂且具有挑战性的任务,旨在通过场景理解和推理来进行安全运动规划。虽然纯视觉自动驾驶方法最近取得了显着的性能,但通过增强场景理解,仍然需要解决一些关键问题,包括缺乏推理、泛化性能低和长尾场景。在本文中,我们提出了 VLP,一种新颖的视觉语言规划框架,它利用语言模型来弥合语言理解和自动驾驶之间的差距。 VLP 通过加强源记忆基础和自动驾驶汽车的上下文理解来增强自动驾驶系统。与之前的最佳方法相比,VLP 在具有挑战性的 NuScenes 数据集上实现了最先进的端到端规划性能,平均 L2 错误率和冲突率分别降低了 35.9% 和 60.5%。此外,VLP在具有挑战性的长尾场景中表现出更好的性能,并且在面对新的城市环境时表现出强大的泛化能力 ...

0 0 0 0 2026/02/03 arXiv:2401.05577v4 chenlei

本文采用参数化方法研究Fredholm积分微分方程组的多点边值问题。单独研究了退化核的情况,为此我们获得了适定性条件并提出了一些算法来找到问题的近似和数值解。然后我们建立了 Fredholm 积分微分方程组多点问题适定性的充分必要条件,并开发了一些求解其近似解的算法。这些算法基于具有简并核的积分微分方程组的逼近问题的解 ...

0 0 0 0 2026/02/03 arXiv:2309.15805v1 chenlei

深度学习模型在广泛的视觉任务中表现出了卓越的性能。然而,它们在测试时通常容易受到域转移的影响。为了缓解这些漏洞,开发了测试时训练(TTT)方法,其中在训练时与主要任务同时解决次要任务,然后在测试时用作自监督代理任务。在这项工作中,我们提出了一种基于多尺度特征图和离散潜在表示之间互信息最大化的新型无监督 TTT 技术,该技术可以作为辅助聚类任务集成到标准训练中。实验结果证明了在不同流行的测试时间适应基准上具有竞争性的分类性能 ...

0 0 0 0 2026/02/03 arXiv:2310.12345v1 chenlei

对于自动驾驶汽车,复杂环境中的安全导航取决于处理各种各样和罕见的驾驶场景。基于模拟和方案的测试已成为自主驾驶系统开发和验证的关键方法。传统的场景生成依赖于基于规则的系统,知识驱动的模型和数据驱动的综合,通常会产生有限的多样性和不切实际的安全性案例 ...

0 0 0 0 2026/01/20 arXiv:2506.11526v2 chenlei

识别高碰撞风险路段并准确预测碰撞发生率是实施有效安全对策的基础。虽然碰撞数据本质上反映了风险,但碰撞报告的频率低且不一致,对稳健的风险预测模型提出了重大挑战。联网车辆技术的普及为利用高密度安全指标来增强碰撞预测提供了一条有前途的途径。紧急制动事件 (HBE) 被解释为一种规避操作,由于其与潜在碰撞因果因素具有明显的相关性,因此可作为驾驶风险升高的有效指标。至关重要的是,与传统碰撞记录相比,HBE 数据在整个道路网络中更容易获得。这项研究利用来自加利福尼亚州和弗吉尼亚州的数据集,系统地评估了警方报告的碰撞事故与通过 Google Android Auto 平台识别的汇总和匿名 HBE 之间在各个路段层面的相关性。经验证据表明,HBE 的发生率高于交通事故。该分析采用最新实践的负二项式回归模型,在 HBE 率和事故率之间建立了统计学上显着的正相关关系:HBE 频率较高的路段始终与较高的事故发生率相关。这个复杂的模型结合并控制了各种混杂因素,包括道路类型、速度曲线、与坡道的接近度和路段坡度。因此,源自互联车辆技术的 HBE 为全网交通安全评估提供了可扩展、高密度的安全替代指标,有可能优化更安全的路线建议并为主动安全对策的战略部署提供信息 ...

0 0 0 0 2026/01/19 arXiv:2601.06327v1 chenlei

在商业无线系统需求不断增长和频谱接入技术进步的推动下,动态频谱共享(DSS)日益成为现代频谱政策的关键要素。无源射电科学,包括射电天文学、地球遥感和气象学,在根本不同的约束下运作。它们依赖于极低的干扰频谱,并且极易受到短暂的射频干扰。我们研究 DSS 是否可以使被动服务受益,或者是否引入新的故障模式和执行挑战。我们提出即时静区(JITQZ)作为保护高价值观测的机制,并评估混合框架,该框架保留对核心无源频段的静态保护,同时允许在相邻频率中进行受限的动态访问。我们分析了传播不确定性、电磁兼容性约束和有限频谱意识的作用。使用博弈论框架,我们展示了非合作共享失败的原因,确定了持续合作的条件,并检查了激励机制,包括促进合规性的假名归因。我们的结论是,DSS 只能作为高可靠性、安全关键的系统来支持无源无线电科学。静态分配仍然至关重要,而动态访问只有在保守的保障措施和可执行的问责制下才可行 ...

0 0 0 0 2026/01/19 arXiv:2601.03966v1 chenlei