odenkkk的文档

MolmoAct: Action Reasoning Models that can Reason in Space

推理对于有目的的行动至关重要，但是大多数机器人基础模型将感知和指示直接绘制为控制，从而限制了适应性，泛化和语义基础。我们介绍了动作推理模型（ARM），这是一种通过结构化的三阶段管道整合感知，计划和控制的机器人基础模型。我们的模型Molmoact将观测和指令编码为深度感知 Token ，将中层空间计划作为可编辑的轨迹痕迹生成中层空间计划，并预测精确的低级动作，实现可解释和可解释的行为 ...

0 0 0 0 2025/08/25 arXiv:2508.07917v3 odenkkk

Memory Mosaics

记忆马赛克是共同记忆的网络，共同实现了一项关注的预测任务。像 Transformer 一样，记忆镶嵌具有组成能力和内在的学习能力。与 Transformer 不同，记忆镶嵌物以相对透明的方式实现了这些功能 ...

0 0 0 0 2025/08/22 arXiv:2405.06394v3 odenkkk

Matrix-Driven Instant Review: Confident Detection and Reconstruction of LLM Plagiarism on PC

近年来，大语言模型（LLM）中对知识产权（IP）的担忧已经大大增长。窃其他LLM（通过直接重量复制，升级，修剪或持续预处理）并声称作者身份而不适当归因于原始许可，这是一种严重的不当行为，可以对原始开发人员造成重大财务和声誉损害。但是，现有的检测LLM窃的方法在关键领域缺乏 ...

0 0 0 0 2025/08/15 arXiv:2508.06309v1 odenkkk

Thermodynamic Linear Algebra

线性代数原始基原始人是工程，科学和机器学习中许多现代算法的核心。因此，通过新颖的计算硬件加速这些原语将产生巨大的经济影响。尽管资源要求远远超出了当前的技术能力，但已提出了量子计算，因此该方法在时间尺度上仍然是长期的 ...

0 0 0 0 2025/08/14 arXiv:2308.05660v2 odenkkk

Benchmarking LLMs' Swarm intelligence

大型语言模型（LLM）显示出具有复杂推理的潜力，但是当在严格的群体限制的局部感知和沟通范围内运行时，它们在多机构系统（MAS）中的紧急协调能力在很大程度上没有探索。当代理商使用不完整的时空信息操作时，现有的基准通常不会完全捕获分散协调的独特挑战。为了弥合这一差距，我们介绍了Swarmbench，这是一种新颖的基准测试，旨在系统地评估LLMS的群体智能能力，充当分散剂 ...

0 0 0 0 2025/08/12 arXiv:2505.04364v3 odenkkk

JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models

数学推理是人工通用智能的基石，也是评估大语言模型（LLMS）功能的主要基准。尽管最先进的模型表现出希望，但面对需要深刻理解和复杂的多步审议的复杂问题时，它们常常会动摇。为了应对这一挑战，我们介绍了JT-MATH-8B，这是一系列基于系统的，多阶段优化框架的开源模型，其中包括基础，指导和思维版本 ...

0 0 0 0 2025/08/11 arXiv:2507.19748v1 odenkkk

Trainable Dynamic Mask Sparse Attention

在大型语言模型中，建模长上下文的需求不断增加，但是标准自我注意机制的二次复杂性通常变成了瓶颈。尽管现有的稀疏注意机制提高了效率，但它们仍可能遇到静态模式或信息丢失等问题。我们引入了可训练的动态面膜稀疏注意机制，动态面具的注意力，它有效地利用了内容感知和位置感知的稀疏性 ...

0 0 0 0 2025/08/11 arXiv:2508.02124v1 odenkkk

Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

在本报告中，我们介绍了Falcon-H1，这是一系列新的大型语言模型（LLMS），其中包含针对各种用例的高性能和效率优化的混合体系结构设计。与较早的Falcon模型不同，Falcon-H1采用了一种平行的混合方法，将基于 Transformer 的注意力与状态空间模型（SSM）相结合，该方法以较高的长篇小说内存和计算效率而闻名。我们系统地重新审视了模型设计，数据策略和培训动态，并挑战了该领域的常规实践 ...

0 0 0 0 2025/08/09 arXiv:2507.22448v1 odenkkk

On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

自引入以来，SoftMax的注意力已成为现代 Transformer 体系结构的骨干，这是由于其在各种任务中的表现力和可扩展性。但是，SoftMax注意的主要缺点是相对于序列长度的二次记忆要求和计算复杂性。通过替换SoftMax的非线性，引入了线性注意力和类似的方法，以避免使用SoftMax的二次瓶颈 ...

0 0 0 0 2025/08/09 arXiv:2507.23632v1 odenkkk

Training Transformers with Enforced Lipschitz Constants

神经网络通常对输入和体重扰动高度敏感。这种敏感性与病理学有关，例如易受对抗性例子，分歧训练和过度拟合的脆弱性。为了解决这些问题，过去的研究已经从Lipschitz组件中构建了神经网络 ...

0 0 0 0 2025/08/07 arXiv:2507.13338v1 odenkkk