大型推理模型(LRMS)取得了杰出的成功,但它们常常因产生不必要的和冗长的推理链而受苦。我们将这个问题的核心方面确定为“无效的思维” - 在得出正确的答案后,模型倾向于反复检查他们的工作。为了解决这一特定的低效率,我们超越了效力和效率的一般原则,提出了两个新的,细粒度的原则:简洁的原则,它倡导消除冗余和足够,确保保留关键的推理步骤 ...
我们提出了一种基于学习的方法,以通过穿越城市环境的移动机器人来重建当地地形进行机车。该算法使用机器人摄像头和机器人轨迹的深度测量流,估计机器人附近的地形。这些相机的原始测量值嘈杂,仅提供部分和遮挡的观察结果,在许多情况下,这些观察结果并未显示机器人所占据的地形 ...
大型语言模型(RLLM)(例如OpenAI-O1和DeepSeek-R1)的推理的最新进展已证明了它们在数学和编码等复杂领域中令人印象深刻的功能。其成功的一个核心因素在于应用长链(长COT)特征,从而增强了推理能力并能够解决复杂的问题。然而,尽管有这些发展,但仍缺乏对长床的全面调查,限制了我们对传统的短链(短COT)的区别的理解,并使关于“过度思考”和“测试时间扩展”等问题的持续辩论变得复杂 .. ...
大型语言模型(LLM)改变了自然语言处理,但它们的内部机制在很大程度上仍然不透明。最近,机械性解释性引起了研究界的极大关注,以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中,稀疏的自动编码器(SAE)已成为一种有前途的方法,因为它们能够将LLM中的复杂,叠加功能置于更容易解释的组件中 ...
当部署到现实世界应用程序时,内存在增强LLMS的性能方面起着关键作用。现有的解决方案面临权衡:基于外部存储的明确内存设计需要复杂的管理和储存开销,而通过参数存储信息的隐式内存设计则可以可靠的检索而努力。在本文中,我们建议通过可逆上下文压缩来优化信息保留和检索的内存网络R $^3 $ MEM ...
Vision Transformers(VIT)在全球和本地表示的自学学习中表现出色,可以转移到下游应用程序。受这些结果的启发,我们介绍了一个新颖的自我监督学习框架,并使用量身定制的代理任务进行医学图像分析。具体而言,我们提出:(i)一种新的基于3D Transformer 的模型,称为Swin UNET Transformer (Swin unet),并具有用于自我监督的预训练的层次编码器; ( ...
细致的 3D 环境表示一直是计算机视觉和机器人领域的长期目标。最近出现的神经隐式表示为该领域带来了根本性的创新,因为隐式表示可以实现多种功能。其中,神经辐射场(NeRF)因其简化的数学模型、紧凑的环境存储和连续的场景表示等巨大的表示优势而引发了一股趋势 ...
多模式信息检索(MIR)由于数据源的异质性和跨模式比对的复杂性而面临固有的挑战。尽管以前的研究已经确定了特征空间中的模态空白,但仍未探索解决这些挑战的系统方法。在这项工作中,我们介绍了Unite,这是一个通用框架,通过两个关键但毫无疑问的方面应对这些挑战:数据策展和模态感知的培训配置 ...