Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
数学推理已成为大语言模型(LLM)进步的海报孩子,新模型在数学和AIME等基准上迅速超过了人类水平的性能。但是,随着数学排行榜每周一周的改善,值得一提的是:这些收益是否反映了更广泛的问题解决能力,还是缩小过度合适?为了回答这个问题,我们在广泛的任务中评估了20多个开放式推理调节的模型,包括数学,科学质量质量质量检查,代理计划,编码和标准指令跟踪。我们惊讶地发现,大多数成功的数学模型都无法将其收益转 ...
我们介绍了Homer,这是一个用于移动操作的模仿学习框架,将全身控制与处理远程和细粒度运动的混合动作模式相结合,从而在现实的野外任务上有效地表现。其核心是一个基于运动学的快速全身控制器,它映射了所需的最终效果构成,以在整个移动基础和手臂上进行协调的运动。在这一减少的最终效应器动作空间中,荷马学会了在绝对姿势预测的远程运动和相对姿势预测之间进行细粒度操纵,将低级协调卸载到控制器上,并将学习集中在任务 ...
基于GNN的推荐人通过多跳消息传递来建模复杂的用户项目交互。但是,现有方法通常忽略了不断发展的用户项目交互的动态性质,这阻碍了对新到达数据中用户偏好和分布变化的适应性。因此,它们在现实世界动态环境中的可伸缩性和性能受到限制 ...
AI代理商的快速发展激发了人们利用他们加速科学发现的长期以来的野心。实现这一目标需要深入了解人类知识的前沿。因此,人类的最后考试(HLE)为评估科学AI代理提供了极具挑战性的试金石 ...
大型推理模型(LRMS)取得了杰出的成功,但它们常常因产生不必要的和冗长的推理链而受苦。我们将这个问题的核心方面确定为“无效的思维” - 在得出正确的答案后,模型倾向于反复检查他们的工作。为了解决这一特定的低效率,我们超越了效力和效率的一般原则,提出了两个新的,细粒度的原则:简洁的原则,它倡导消除冗余和足够,确保保留关键的推理步骤 ...
我们提出了一种基于学习的方法,以通过穿越城市环境的移动机器人来重建当地地形进行机车。该算法使用机器人摄像头和机器人轨迹的深度测量流,估计机器人附近的地形。这些相机的原始测量值嘈杂,仅提供部分和遮挡的观察结果,在许多情况下,这些观察结果并未显示机器人所占据的地形 ...
大型语言模型(RLLM)(例如OpenAI-O1和DeepSeek-R1)的推理的最新进展已证明了它们在数学和编码等复杂领域中令人印象深刻的功能。其成功的一个核心因素在于应用长链(长COT)特征,从而增强了推理能力并能够解决复杂的问题。然而,尽管有这些发展,但仍缺乏对长床的全面调查,限制了我们对传统的短链(短COT)的区别的理解,并使关于“过度思考”和“测试时间扩展”等问题的持续辩论变得复杂 .. ...
大型语言模型(LLM)改变了自然语言处理,但它们的内部机制在很大程度上仍然不透明。最近,机械性解释性引起了研究界的极大关注,以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中,稀疏的自动编码器(SAE)已成为一种有前途的方法,因为它们能够将LLM中的复杂,叠加功能置于更容易解释的组件中 ...