odenkkk的文档

Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

人类视觉具有高度适应性，通过顺序关注与任务相关的区域来有效地采样复杂的环境。相比之下，流行的机器视觉模型一次被动地处理整个场景，导致过多的资源需求随着时空输入分辨率和模型大小而扩展，从而产生阻碍未来进步和实际应用的关键限制。在这里，我们介绍 AdaptiveNN，这是一个通用框架，旨在推动从“被动”视觉模型到“主动、自适应”视觉模型的范式转变 ...

0 0 0 0 2025/11/04 arXiv:2509.15333v1 odenkkk

TacRefineNet: Tactile-Only Grasp Refinement Between Arbitrary In-Hand Object Poses

尽管传统的灵巧抓取管道和最近的视觉-语言-动作（VLA）方法都取得了进展，但抓取执行阶段仍然容易出现不准确的情况，特别是在长期任务中，这会损害整体性能。为了解决这一“最后一英里”的挑战，我们提出了 TacRefineNet，这是一种纯触觉框架，可使用多指指尖感应对任意目标姿势中的已知物体进行精细的手中姿势细化。我们的方法根据触觉反馈迭代调整末端执行器姿势，将物体对齐到所需的配置 ...

0 0 0 0 2025/11/04 arXiv:2509.25746v1 odenkkk

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation

视觉语言动作模型（VLA）通过继承视觉语言模型（VLM）和学习动作生成，在机器人操作任务中表现出了泛化能力。大多数 VLA 模型专注于解释视觉和语言以生成动作，而机器人必须在空间物理世界中感知和交互。这一差距凸显了对机器人特定多感官信息的全面理解的必要性，这对于实现复杂和接触丰富的控制至关重要 ...

0 0 0 0 2025/11/04 arXiv:2509.26642v1 odenkkk

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

现代人工智能硬件，例如 Nvidia 的 Blackwell 架构，越来越多地采用低精度浮点 (FP) 格式来处理大型语言模型 (LLM) 中普遍存在的激活异常值。尽管存在这种行业趋势，但仍缺乏跨不同粒度的 FP 和整数 (INT) 量化的统一比较，导致算法和硬件协同设计缺乏明确的指导。本文通过系统地研究 FP 和 INT 格式之间的权衡来填补这一空白 ...

0 0 0 0 2025/11/04 arXiv:2510.25602v1 odenkkk

Pretraining Large Language Models with NVFP4

如今，大型语言模型 (LLM) 是许多领域中强大的问题解决者，并且随着模型大小、训练集大小和训练集质量的扩展，它们会变得越来越强大，整个行业的广泛研究和实验表明了这一点。如今训练前沿模型需要数十到数百 yottaflops，这是对时间、计算和精力的巨大投资。因此，提高预训练效率对于培养下一代能力更强的 LLM 至关重要 ...

0 0 0 0 2025/11/03 arXiv:2509.25149v1 odenkkk

Equivariant Eikonal Neural Networks: Grid-Free, Scalable Travel-Time Prediction on Homogeneous Spaces

我们引入了等变神经征像解算器，这是一种将等变神经场 (ENF) 与神经征像解算器集成在一起的新颖框架。我们的方法采用单个神经场，其中统一的共享主干以信号特定的潜在变量（表示为李群中的点云）为条件，以对不同的 Eikonal 解决方案进行建模。 ENF 集成确保从这些潜在表示到解域的等变映射，从而提供三个关键优势：通过权重共享提高表示效率、强大的几何基础和解的可操纵性 ...

0 0 0 0 2025/11/03 arXiv:2505.16035v2 odenkkk

An efficient probabilistic hardware architecture for diffusion-like models

概率人工智能的激增促进了专用随机计算机的提议。尽管有望提高效率，但这些提议未能获得关注，因为它们依赖于根本上有限的建模技术和奇异的、不可扩展的硬件。在这项工作中，我们通过提出一种在硬件级别实现强大的去噪模型的全晶体管概率计算机来解决这些缺点 ...

0 0 0 0 2025/10/31 arXiv:2510.23972v1 odenkkk

Tactile-Based Human Intent Recognition for Robot Assistive Navigation

机器人辅助导航 (RAN) 对于增强日益增长的行动障碍人士的行动能力和独立性至关重要。然而，现有系统通常依赖于无法复制人与人类护理人员之间观察到的直观且高效的物理通信的界面，从而限制了其有效性。在本文中，我们介绍了 Tac-Nav，这是一种 RAN 系统，它利用安装在 Stretch 3 移动操纵器上的圆柱形触觉皮肤，为人类导航意图识别提供更自然、更高效的界面 ...

0 0 0 0 2025/10/30 arXiv:2509.16353v1 odenkkk

PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

模拟对象动力学的交互式世界模型对于机器人、VR 和 AR 至关重要。然而，从有限的现实世界视频数据中学习物理一致的动力学模型仍然是一个重大挑战，特别是对于具有空间变化物理属性的可变形物体。为了克服数据稀缺的挑战，我们提出了 PhysWorld，这是一种新颖的框架，它利用模拟器来合成物理上合理且多样化的演示，以学习有效的世界模型 ...

0 0 0 0 2025/10/29 arXiv:2510.21447v1 odenkkk

Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

本文提出了一种使用人类手部活动的无脚本现实视频记录的大型语料库来预训练机器人操作视觉-语言-动作（VLA）模型的新方法。将人手视为灵巧的机器人末端执行器，我们证明，没有任何注释的“野外”以自我为中心的人类视频可以转换为在任务粒度和标签方面与现有机器人 V-L-A 训练数据完全一致的数据格式。这是通过开发针对任意人手视频的全自动整体人类活动分析方法来实现的 ...

0 1 0 0 2025/10/29 arXiv:2510.21571v1 odenkkk