odenkkk的文档

Parallel Loop Transformer for Efficient Test-Time Computation Scaling

大型语言模型 (LLM) 功能强大，但对于实际推理过程中的使用来说通常速度太慢且成本高昂。循环 Transformer 通过在多个计算步骤或“循环”中重复使用相同的权重来节省参数。然而，这种方法有一个主要缺陷：循环一个接一个地运行，导致推理延迟和内存需求随着每个添加的循环而增加。这使得它们对于快速应用程序来说不切实际。为了解决这个问题，我们引入了并行循环 Transformer （PLT）。 PLT 是一种新架构，它具有深度循环模型的性能优势，但具有标准非循环模型的低延迟。 PLT 使用两种关键技术进行工作。首先，跨循环并行 (CLP) 通过同时计算不同标记的不同循环来打破顺序依赖性，所有这些都在一次传递内完成。其次，为了防止内存成本增长，我们使用高效表示增强策略。此方法与所有其他循环共享第一个循环的内存（KV 缓存）。然后，它使用门控滑动窗口注意（G-SWA）将共享的全局信息与局部信息结合起来，保持高精度。我们的实验表明，PLT 实现了传统循环模型的高精度，但与标准 Transformer 相比几乎没有额外的延迟或内存成本 ...

0 0 0 0 2025/12/06 arXiv:2510.24824v1 odenkkk

On the Reasoning Abilities of Masked Diffusion Language Models

文本的掩蔽扩散模型 (MDM) 为传统自回归语言模型提供了一种引人注目的替代方案。并行生成使它们变得高效，但它们的计算能力和并行性固有的局限性在很大程度上仍未得到探索。为此，我们描述了 MDM 可以证明解决哪些类型的推理问题以及解决效率如何。我们通过在有限精度对数宽度设置中将 MDM 连接到易于理解的思想链 (CoT) 推理框架和填充循环 Transformer (PLT) 来实现这一点：我们表明，MDM 和多项式填充 PLT 实际上在这种设置中是等效的，并且 MDM 可以解决 CoT 增强 Transformer 可以解决的所有问题。此外，我们还展示了 MDM 本质上比 CoT 转换器更高效的问题类别（包括常规语言），其中并行生成允许更快的推理速度 ...

0 0 0 0 2025/12/06 arXiv:2510.13117v1 odenkkk

Hoi! - A Multimodal Dataset for Force-Grounded, Cross-View Articulated Manipulation

我们提出了一个基于力的、跨视图铰接操纵的数据集，它将在真实的人类交互过程中所看到的与所做的和感受到的结合起来。该数据集包含 38 个环境中 381 个铰接物体的 3048 个序列。每个物体都在四个实施例下进行操作 - (i) 人手，(ii) 带有腕式摄像头的人手，(iii) 手持式 UMI 抓手，以及 (iv) 定制的 Hoi！夹具——工具实施例提供同步的末端执行器力和触觉传感。我们的数据集提供了从视频中理解交互的整体视图，使研究人员能够评估方法在人类和机器人观点之间的转换程度，同时还可以研究尚未开发的模式，例如力传感和预测 ...

0 0 0 0 2025/12/05 arXiv:2512.04884v1 odenkkk

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

我们推出 DeepSeek-V3.2，该模型将高计算效率与卓越的推理和代理性能相结合。 DeepSeek-V3.2的关键技术突破如下：（1）DeepSeek稀疏注意力（DSA）：我们引入了DSA，一种高效的注意力机制，可以大大降低计算复杂度，同时在长上下文场景中保持模型性能。 (2) 可扩展的强化学习框架：通过实施强大的强化学习协议和扩展训练后计算，DeepSeek-V3.2 的性能与 GPT-5 相当。值得注意的是，我们的高计算变体 DeepSeek-V3.2-Speciale 超越了 GPT-5，并表现出与 Gemini-3.0-Pro 相当的推理能力，在 2025 年国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中均获得金牌。 (3) 大规模代理任务合成管道：为了将推理集成到工具使用场景中，我们开发了一种新颖的合成管道，可以系统地大规模生成训练数据。这种方法有利于可扩展的代理后训练，在复杂的交互式环境中显着提高泛化性和指令遵循的鲁棒性 ...

0 0 0 0 2025/12/04 arXiv:2512.02556v1 odenkkk

Tactile Robotics: Past and Future

触觉机器人的未来是什么？为了帮助定义未来，本文从近半个世纪以来近 150 篇评论中的丰富知识和专家意见中提供了机器人触觉感知的历史视角。这段历史的特点是连续几代：1965-79（起源）、1980-94（基础和成长）、1995-2009（触觉冬季）和2010-2024（扩张和多样化）。最近的扩展导致了电子皮肤、触觉机器人手、基于视觉的触觉传感、软/仿生触摸和触觉互联网等不同主题的出现。在 2025 年的下一代，触觉机器人技术可能会成熟并广泛应用于商业用途，其在类人灵活性、理解人类智能和远程呈现方面的应用将影响所有机器人和人工智能。通过将过去的专家见解与当前的主题联系起来，本文重点介绍了触觉机器人技术中反复出现的挑战，展示了该领域的发展情况、进展为何经常停滞以及哪些机会最有可能定义其未来 ...

0 0 0 0 2025/12/02 arXiv:2512.01106v1 odenkkk

Solving Spatial Supersensing Without Spatial Supersensing

Cambrian-S 旨在通过引入（i）两个基准，VSI-Super-Recall（VSR）和 VSI-Super-Counting（VSC），以及（ii）针对每个基准定制的预测感知推理策略，迈出利用空间超感知改进视频世界模型的第一步。在这项工作中，我们对 Cambrian-S 在这两个方面进行了批判性分析。首先，我们引入一个简单的基线 NoSense，它丢弃了几乎所有时间结构，仅使用词袋 SigLIP 模型，但几乎完美地解决了 VSR，即使在 4 小时的视频上也能达到 95% 的准确率。这表明像 VSR 这样的基准几乎可以在没有空间认知、世界建模或空间超感知的情况下得到解决。其次，我们假设 Cambrian-S 提出的定制推理方法可能利用基准测试中的捷径启发法。我们通过对 VSC 基准进行简单的健全性检查（称为 VSC-Repeat）来说明这一点：我们将每个视频与其自身连接 1-5 次，这不会改变唯一对象的数量。然而，这种简单的扰动将 Cambrian-S 的平均相对精度从 42% 完全降低到 0%。执行空间超感知并集成跨体验信息的系统应该识别同一场景的视图并保持对象计数预测不变；相反，Cambrian-S 推理算法很大程度上依赖于 VSC 基准测试中的捷径，即永远不会重新访问房间。总而言之，我们的研究结果表明（i）当前的 VSI-Super 基准尚未可靠地测量空间超感知，以及（ii）Cambrian-S 使用的预测感知推理配方通过无意中利用捷径而不是通过强大的空间超感知来提高性能。我们纳入了 Cambrian-S 作者的回应（在附录 A 中），以在我们的主张之外提供平衡的观点。我们在以下位置发布代码：此 https URL ...

0 0 0 0 2025/12/02 arXiv:2511.16655v1 odenkkk

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

触觉传感为视觉和语言提供丰富且互补的信息，使机器人能够感知细粒度的物体属性。然而，现有的触觉传感器缺乏标准化，导致冗余功能阻碍跨传感器泛化。此外，现有方法未能完全整合触觉、语言和视觉方式之间的中间交流。为了解决这个问题，我们提出了 TLV-CoRe，一种基于 CLIP 的触觉-语言-视觉协作表示学习方法。 TLV-CoRe 引入了传感器感知调制器来统一不同传感器的触觉特征，并采用触觉不相关的解耦学习来解开不相关的触觉特征。此外，还引入了统一桥接适配器来增强共享表示空间内的三模式交互。为了公平地评估触觉模型的有效性，我们进一步提出了 RSS 评估框架，重点关注不同方法的鲁棒性、协同性和稳定性。实验结果表明，TLV-CoRe 显着改善了与传感器无关的表示学习和跨模态对齐，为多模态触觉表示提供了新的方向 ...

0 0 0 0 2025/11/28 arXiv:2511.11512v1 odenkkk

Residual Rotation Correction using Tactile Equivariance

视觉触觉策略学习通过触觉输入增强了仅视觉策略，促进了丰富的接触操作。然而，触觉数据收集的高昂成本使得样本效率成为制定视觉触觉政策的关键要求。我们提出了 EquiTac，一个利用手中对象旋转固有的 SO(2) 对称性来提高样本效率和视觉触觉策略学习泛化的框架。 EquiTac 首先根据基于视觉的触觉传感器的原始 RGB 输入重建表面法线，因此法线矢量场的旋转对应于手中物体的旋转。然后，SO(2) 等变网络预测剩余旋转动作，该动作在测试时增强基本视觉运动策略，从而无需额外的重新定向演示即可实现实时旋转校正。在真实的机器人上，EquiTac 使用很少的训练样本准确地实现了对看不见的手上方向的鲁棒零样本泛化，即使使用更多的训练数据，基线也会失败。据我们所知，这是第一个为策略学习显式编码触觉等变性的触觉学习方法，产生了一个轻量级、对称感知的模块，可以提高接触丰富的任务的可靠性 ...

0 0 0 0 2025/11/28 arXiv:2511.07381v2 odenkkk

ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects

在现实环境中运行的机器人经常会遇到具有复杂结构和铰接部件的未知物体，例如门、抽屉、橱柜和工具。在不事先了解这些物体的几何或运动学特性的情况下感知、跟踪和操纵这些物体的能力仍然是机器人技术中的一个基本挑战。在这项工作中，我们提出了一种在机器人交互过程中基于视觉触觉跟踪看不见的物体（单个、多个或铰接的）的新方法，无需假设任何有关物体形状或动力学的先验知识。我们的新颖姿势跟踪方法称为 ArtReg（代表铰接配准），将视觉触觉点云集成到 SE(3) 李群中的无味卡尔曼滤波器公式中，以进行点云配准。 ArtReg 用于通过有目的的操纵动作（例如使用两个机器人团队进行推或拉）来检测物体中可能存在的铰接接头。此外，我们利用 ArtReg 开发闭环控制器，用于目标驱动的铰接对象操纵，将对象移动到所需的姿势配置。我们通过真实的机器人实验广泛评估了我们对各种类型未知物体的方法。我们还通过评估具有不同质心、弱光条件和具有挑战性视觉背景的物体来证明我们方法的稳健性。此外，我们在铰接物体的标准数据集上对我们的方法进行了基准测试，并证明了与最先进的方法相比，在姿势准确性方面的性能有所提高。我们的实验表明，利用视觉触觉信息的稳健而准确的姿势跟踪使机器人能够感知看不见的复杂铰接物体（具有旋转或棱柱关节）并与之交互 ...

0 0 0 0 2025/11/28 arXiv:2511.06378v1 odenkkk

A Survey on Efficient Vision-Language-Action Models

视觉-语言-动作模型（VLA）代表了体现智能的重要前沿，旨在架起数字知识与物理世界交互的桥梁。虽然这些模型表现出了卓越的通才能力，但其部署却受到其底层大规模基础模型固有的大量计算和数据要求的严重阻碍。出于应对这些挑战的迫切需要，本次调查首次对整个数据模型训练过程中的高效视觉-语言-行动模型（高效 VLA）进行了全面审查。具体来说，我们引入了一个统一的分类法来系统地组织该领域的不同工作，将当前技术分为三个核心支柱：（1）高效模型设计，重点关注高效架构和模型压缩；（2）高效训练，减少模型学习过程中的计算负担； (3)高效数据采集，解决机器人数据获取和利用的瓶颈。通过在此框架内对最先进的方法进行批判性审查，本次调查不仅为社区建立了基础参考，还总结了代表性应用，描绘了关键挑战，并为未来的研究制定了路线图。我们维护一个不断更新的项目页面来跟踪我们的最新进展：此 https URL ...

0 0 0 0 2025/11/28 arXiv:2510.24795v1 odenkkk