odenkkk的文档

odenkkk

odenkkk

个性签名 ...

Llama-Nemotron: Efficient Reasoning Models

我们介绍了Llama-Nemotron系列模型，这是一个开放的异构推理模型家族，可提供出色的推理能力，推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米（8b），Super（49b）和Ultra（253b） - 并与最先进的推理模型（例如DeepSeek-R1）一起竞争，同时提供了出色的推理吞吐量和记忆效率。在本报告中，我们讨论了这些模型的培训程序，这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理，知识蒸馏和持续预处理，然后进行以推理为中心的训练后阶段，由两个主要部分组成：受监管的精细调整和大规模增强学习 ...

0 0 0 0 2025/05/09 arXiv:2505.00949v2 odenkkk

Transformer models are gauge invariant: A mathematical connection between AI and particle physics

在粒子物理学中，基本力受到称为仪表不变性的对称性。这是任何物理系统的数学描述中的冗余。在本文中，我将证明 Transformer 体系结构具有相同的属性，并表明变形金刚的默认表示形式已部分但并未完全删除量规不变性 ...

0 0 0 0 2025/05/07 arXiv:2412.14543v1 odenkkk

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding

循环 Transformer 在参数效率，计算能力和推理任务的概括方面具有优势。但是，它们在功能近似方面的表达能力仍未得到充实。在本文中，我们通过定义序列到序列函数的连续性模量来建立循环 Transformer 的近似速率 ...

0 0 0 0 2025/05/07 arXiv:2410.01405v6 odenkkk

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

我们介绍了在 Transformer 注意机制中的软键，这是一种纠正的，而不是总和替换，可消除注意力降低和大量激活。我们使用340m参数模型进行的实验表明，软饼在标准基准测试的同时保持了SoftMax的性能均衡，同时达到了0％的接收率。软键 Transformer 产生的隐藏状态显着较低（340 vs 33,510），并产生稀疏的注意力图（46 ...

0 0 0 0 2025/05/06 arXiv:2504.20966v1 odenkkk

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

我们介绍了DeepSeek-Prover-V2，这是一种旨在正式定理的开源大语言模型，该模型在LEAN 4中证明，通过递归定理收集的初始化数据证明了由DeepSeek-V3供电的管道。冷启动训练程序首先促使DeepSeek-V3将复杂的问题分解为一系列子目标。解决的子目标的证明被合成为一个经过思考的过程，并结合了DeepSeek-V3的逐步推理，为增强学习创造了最初的冷启动 ...

0 0 0 0 2025/05/04 arXiv:2504.21801v1 odenkkk

Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks

Vision语言动作（VLA）模型代表了开发通用机器人系统的有希望的方向，证明了结合视觉理解，语言理解和动作生成的能力。但是，跨不同机器人任务对这些模型的系统评估仍然有限。在这项工作中，我们提供了一个全面的评估框架和用于评估VLA模型的基准套件 ...

0 0 0 0 2025/04/29 arXiv:2411.05821v2 odenkkk

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

通过可验证的奖励（RLVR）的增强学习最近在增强LLM的推理能力方面取得了显着成功，尤其是在数学和编程任务中。人们普遍认为，RLVR使LLM能够持续自我爆发，从而获得超过相应基本模型能力的新型推理能力。但是，在这项研究中，我们通过测量@\ textIt {k}度量的通行证{k}度量\ textit {k}来探讨模型范围跨广泛的模型家族和基准的模型的推理能力边界，从而重新审视了这一假设 ...

0 0 0 0 2025/04/25 arXiv:2504.13837v1 odenkkk

Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models

学习从人类视频中执行操纵任务是一种教学机器人的有前途的方法。但是，许多操纵任务都需要在任务执行过程中更改控制参数，例如force，仅视觉数据无法捕获。在这项工作中，我们利用传感设备（例如测量人类肌肉活动和记录声音的麦克风，捕获人体操纵过程中的细节）等臂章，并使机器人能够提取任务计划和控制参数来执行相同的任务 ...

0 0 0 0 2025/04/24 arXiv:2504.13351v1 odenkkk

Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling

生成模型通常通过匹配流量或分数将噪声映射到数据，但是这些方法对于融合部分观测或其他先验而变得笨拙。受Wasserstein梯度流的最新进展的启发，我们提出了能量匹配，该框架将基于流量的方法统一了基于能量的模型（EBM）的灵活性。远离数据歧管，样品沿着无卷曲的最佳传输路径从噪声到数据移动 ...

0 0 0 0 2025/04/22 arXiv:2504.10612v1 odenkkk

Transformers Provably Solve Parity Efficiently with Chain of Thought

这项工作提供了对训练 Transformer 的首次理论分析，以通过递归产生中间状态来解决复杂问题，该状态类似于对经过三通链（COT）推理的微调。我们考虑培训一层 Transformer 来解决基本的$ k $ - 准则问题，从而扩展了Wies等人（2023）对RNN的工作 ...

0 0 0 0 2025/04/22 arXiv:2410.08633v3 odenkkk

文件上传进度

0%

上传成功 0 个文件