odenkkk的文档

How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction?

手势可以实现非语言人类机器人的交流，尤其是在敏捷生产等嘈杂的环境中。传统的基于深度学习的手势识别依赖于特定于任务的架构，使用图像，视频或骨骼姿势估计作为输入。同时，具有强大概括能力的视觉基础模型（VFM）和视觉语言模型（VLM）通过替换专用特定于任务的模块来降低系统复杂性的潜力 ...

0 0 0 0 2025/07/01 arXiv:2506.20795v1 odenkkk

Mercury: Ultra-Fast Language Models Based on Diffusion

我们提出了基于扩散的新一代商业规模的大语言模型（LLM）。这些模型通过 Transformer 体系结构进行了参数化，并经过训练以并联预测多个 Token 。在本报告中，我们详细介绍了水星编码器，这是我们为编码应用程序设计的第一组扩散LLM ...

0 0 0 0 2025/07/01 arXiv:2506.17298v1 odenkkk

Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping

我们介绍了所有（GET）Gripper的所有内容，这是一种新颖的1多道，三指设计，用于牢固抓住许多形状和尺寸的物体。该设计安装在标准的平行颚执行器上，具有三个狭窄的锥形手指，并以两种速度的配置排列，两个手指在其中汇聚成V形。与带有两个平坦的手指的传统设计相比，Get Gripper更有能力符合几何并形成安全的抓地力 ...

0 0 0 0 2025/06/30 arXiv:2505.09771v2 odenkkk

Whole-Body Conditioned Egocentric Video Prediction

鉴于过去的视频和相对3D身体姿势代表的动作，我们训练模型以预测人类动作（PEVA）的自我视频。通过根据人体联合层次结构结构的运动学姿势轨迹的条件，我们的模型学会了从第一人称角度从第一人称角度来塑造环境的身体行为。我们在Nymeria上训练自动回归有条件扩散 Transformer ，这是一个大规模的以现实世界中心视频和身体姿势捕获的数据集 ...

0 0 0 0 2025/06/27 arXiv:2506.21552v1 odenkkk

Active Inference AI Systems for Scientific Discovery

人工智能的快速发展导致了人们对变革性科学发现的期望，但是当前系统在根本上仍然受其操作架构，脆性推理机制以及与实验现实的分离的限制。在早期工作的基础上，我们认为AI驱动的科学的进展现在取决于缩小三个基本差距 - 抽象差距，推理差距和现实差距 - 而不是模型大小/数据/测试时间计算。科学推理需要内部表示，以支持动作和反应的模拟，区分相关性与机制的因果结构以及持续校准 ...

0 0 0 0 2025/06/27 arXiv:2506.21329v1 odenkkk

Auto-Compressing Networks

具有短剩余连接的深度神经网络在整个领域都表现出显着的成功，但是深度的增加通常会引入计算冗余，而无需相应的表示质量改善。在这项工作中，我们介绍了自动压缩网络（ACN），这是一种体系结构变体，其中从每一层到输出的添加性长馈电连接取代了传统的短剩余连接。 ACNS展示了我们创建的独特属性作为“自动压缩”，这是网络在梯度下降期间通过建筑设计单独通过建筑设计在训练过程中有机地压缩信息的能力 ...

0 0 0 0 2025/06/27 arXiv:2506.09714v1 odenkkk

我们提出RXTX，这是一种用于计算矩阵的产品的新算法，其thrppose $ xx^{t} $ for $ x \ in \ mathbb {r}^{r}^{n \ times m} $。 RXTX使用$ 5 \％$ $ $ $ $ $ \％\％$ $ $ $ $ $ $ $ $ $ $ $ $比最先进的算法少。请注意，加速度不仅可以渐近地适用于具有$ n \ rightarrow \ infty $的大型矩阵，还适用于包括$ n = 4 $的小矩阵 ...

0 0 0 0 2025/06/25 arXiv:2505.09814v2 odenkkk

Don't Pay Attention

Transformer 已成为大型语言模型和各个领域的各种下游任务的事实上的标准。尽管有许多优势，例如固有的训练并行性，但由于无法有效处理固定上下文窗口和注意机制的二次复杂性， Transformer 仍然面临着关键的挑战。这些挑战已经引起了人们对类似RNN的架构的兴趣，这些构建结构具有序列长度的线性缩放，并改善了对远程依赖性的处理，尽管由于其固有的经常性性质，因此具有有限的并行性 ...

0 0 0 0 2025/06/24 arXiv:2506.11305v1 odenkkk

A Framework for Non-Linear Attention via Modern Hopfield Networks

在这项工作中，我们提出了一个沿现代Hopfield网络（MNH）线的能量功能，其固定点与由于Vaswani等人[12]引起的注意力相对应，从而统一了两个框架。该景观的最小值形成了“上下文井” - 稳定的配置，封装了 Token 之间的上下文关系 ...

0 0 0 0 2025/06/20 arXiv:2506.11043v1 odenkkk

Vector Ising Spin Annealer for Minimizing Ising Hamiltonians

我们介绍了矢量旋转退火器（VISA），这是一个基于增益计算的框架，该框架利用了光结合相互作用，以解决自旋汉密尔顿人编码的复杂优化问题。由于旋转运动的限制，传统的驱动障碍系统通常会选择激发状态。 Visa通过使旋转能够在三维空间中运行，从而超越了这些约束，从而提供了强大的解决方案，以最大程度地减少Hamiltonians ...

0 0 0 0 2025/06/10 arXiv:2403.16608v2 odenkkk