arxiv的文档

arxiv 南京

个性签名 ...

Quantum AGI: Ontological Foundations

我们研究了量子基础对AGI的含义，重点介绍了诸如贝尔定理（非局部性），科钦 - 拼写定理（上下文性）以及无关定理的诸如量子设置中AGI的实际实现的结果。我们介绍了一种新颖的信息理论分类法，以区分古典AGI和量子AGI，并展示量子力学如何影响代理的基本特征。我们展示了量子本体学如何通过提供计算优势和实施新的约束来改变AGI能力 ...

0 0 0 0 2025/08/05 arXiv:2506.13134v1 kkkk

SuperMapNet for Long-Range and High-Accuracy Vectorized HD Map Construction

矢量化高清图对于自动驾驶至关重要。近年来已经实现了杰出的工作，但是仍然存在重大问题：（1）在BEV功能的产生中，基于单态的方法具有有限的感知能力，而直接基于基于串联的多模式方法的直接方法无法捕获不同模态之间的协同和差异，从而导致特征孔有限的范围；（2）在地图元素的分类和定位中，仅使用点信息，而无需考虑元素infor-mation并忽略了点信息和元素信息之间的相互作用，从而导致错误的形状和元素纠缠较低。为了解决上述问题，我们介绍了用于远程和高临界矢量化的高清图构建的SuperMapnet ...

0 0 0 0 2025/08/05 arXiv:2505.13856v2 xubiao

DistFlow: A Fully Distributed RL Framework for Scalable and Efficient LLM Post-Training

强化学习（RL）已成为大型语言模型的关键训练后培训技术。现在，有效地扩展增强学习是解锁先进的推理能力并确保在最强大的LLM中安全，目标对准行为的关键。主流框架通常采用混合控制器体系结构，单个控制器派遣整体执行逻辑并管理整体数据传输以及多控制器执行分布式计算 ...

0 0 0 0 2025/08/05 arXiv:2507.13833v2 wonders

Meta CLIP 2: A Worldwide Scaling Recipe

对比性语言图像预处理（剪辑）是一种流行的基础模型，从零摄像分类（从零摄影分类）中获得了支持，并检索到编码器的多模式大型语言模型（MLLMS）。尽管剪辑在英语世界的十亿级图像文本对上成功培训，但是将剪辑进一步扩展到从全球网络数据中学习的培训仍然具有挑战性：（1）尚无策划方法来处理非英国世界的数据点；（2）现有多语言剪辑的英语表现比仅英语的剪辑差，即 ...

0 0 0 0 2025/08/05 arXiv:2507.22062v3 zhanghp947

EdgeVLA: Efficient Vision-Language-Action Models

视觉语言模型（VLM）已成为一种有前途的方法，可以解决机器人技术中的数据稀缺挑战，从而实现了可推广的视觉运动控制策略的发展。尽管OpenVLA之类的模型展示了这种范式的潜力，但在资源约束的移动操纵系统上部署大规模的VLM仍然是一个重大障碍。本文介绍了Edge VLA（EVLA），这是一种新型方法，旨在显着提高视觉速度的推理速度（VLA）模型 ...

0 0 0 0 2025/08/05 arXiv:2507.14049v1 蔡明方

VLA-Mark: A cross modal watermark for large vision-language alignment model

视觉模型需要在不损害多模式相干性的情况下保护知识产权的水印解决方案。现有的文本水印方法通过有偏见的 Token 选择和静态策略破坏了视觉文本对齐，使语义关键的概念易受伤害。我们提出了VLA-MARK，这是一个与视觉一致的框架，该框架嵌入可检测的水印，同时通过交叉模式协调来保留语义忠诚 ...

0 0 0 0 2025/08/05 arXiv:2507.14067v1 蔡明方

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

我们介绍了H-H0，这是一种灵巧的视觉语言动作模型（VLA），该模型在大型人类视频中训练。现有的VLA与需要高灵活性的复杂操纵任务斗争，并且对新的场景和任务的推广不佳，这主要是由于它们依赖于综合数据具有大量的SIM到SIM到真实差距或远程操作示威，缺乏规模和多样性。为了解决此数据瓶颈，我们提出利用人类作为基础操纵器，利用Web数据中存在的丰富灵巧性和可扩展性 ...

0 0 0 0 2025/08/05 arXiv:2507.15597v1 蔡明方

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

视觉语言动作（VLA）推理任务要求代理来解释多模式指示，执行长摩根计划并在动态环境中自适应行动。现有方法通常以端到端的方式训练VLA模型，直接将输入映射到无明确推理的情况下，这阻碍了他们计划多个步骤或适应复杂的任务变化的能力。在本文中，我们提出了ThinkAct，这是一个双层系统框架，它通过强化的视觉潜在计划将高级推理与低水平的动作执行 ...

0 0 0 0 2025/08/05 arXiv:2507.16815v1 蔡明方

Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots

视觉语言动作（VLA）模型是一种多模式类的人工智能（AI）系统，它们整合了视觉感知，自然语言理解和行动计划，以使代理商能够自动地解释其环境，理解说明并执行体现的任务。最近，已经取得了重大进展来推进这一领域。通常通过任务成功率评估这些模型，这些模型无法捕获任务执行质量及其对决策的信心 ...

0 0 0 0 2025/08/05 arXiv:2507.17049v2 蔡明方

Confidence Calibration in Vision-Language-Action Models

值得信赖的机器人行为不仅需要高水平的任务成功，而且还需要机器人可以可靠地量化成功的可能性。为此，我们介绍了视觉语言动作（VLA）基础模型中首次对置信度校准的系统研究，该模型将视觉观测和自然语言指令映射到低级机器人电动机命令。我们从广泛的基准测试开始，以了解多个数据集和VLA变体的任务成功与校准误差之间的关键关系，发现任务性能和校准不在张力中 ...

0 0 0 0 2025/08/05 arXiv:2507.17383v1 蔡明方