最近的研究表明,使模型花费更多的时间通过更长的思想链(COT)进行思考,从而使其能够在复杂的推理任务中获得重大改进。尽管当前的研究继续通过扩展大型语言模型(LLMS)的COT长度来探索增加测试时间计算的好处,但我们担心当前追求测试时间扩展的潜在问题:过度扩展COT实际上会给模型的推理绩效带来不利影响吗?我们对数学推理任务的探索揭示了一个意外的发现,即使用更长的COTS缩放确实会损害某些域中LLM的推理性能。此外,我们发现存在最佳的缩放长度分布,在不同的域之间有所不同 ...
大型语言模型(LLMS)在通过诸如Thebough(COT)提示之类的机制来解决复杂的推理任务方面表现出了显着的性能,该机制强调了详细的,逐步的推理。但是,人类通常采用更有效的策略:起草简洁的中间思想,只捕获基本信息。在这项工作中,我们提出了草稿链(COD),这是一种受人类认知过程启发的新型范式,在该过程中,LLMS在解决任务时会产生简约但内容丰富的中间推理输出 ...
从互联网上快速扩展的信息中获取有价值的数据已成为一个重大问题,并且推荐系统已成为一种广泛使用且有效的工具,可帮助用户发现感兴趣的项目。推荐系统的本质在于它们能够预测用户评级或各种项目的偏好,并随后根据历史互动数据和公开可用信息推荐最相关的评分。随着多种多媒体服务的出现,包括文本,图像,视频和音频,人类可以通过多种方式感知世界 ...
数据在机器学习研究中起着至关重要的作用。在建议的研究中,用户行为和侧面信息都对用户有帮助。因此,具有丰富用户行为的大规模实际场景数据集将大大贡献 ...
我们研究一种新型的语言模型体系结构,能够通过潜在空间中隐式推理来扩展测试时间计算。我们的模型通过迭代复发块来起作用,从而在测试时间内展开对任意深度。这与主流推理模型相反,该模型通过产生更多的 Token 来扩展计算 ...
大型语言模型(LLM)由于依赖静态培训数据而与幻觉和过时的知识斗争。通过集成外部动态信息来增强事实和更新的基础,检索增强的生成(RAG)通过整合外部动态信息来减轻这些问题。多模式学习的最新进展导致了多模式抹布的发展,并结合了多种模式,例如文本,图像,音频和视频,以增强生成的输出 ...
推理语言模型(RLMS),也称为大型推理模型(LRMS),例如OpenAI的O1和O3,DeepSeek-V3和Alibaba的QWQ,通过通过具有先进的推理机制扩展LLM来重新定义AI的解决问题的能力。然而,它们的高成本,专有性质和复杂的体系结构 - 独特地结合了增强学习(RL),搜索启发式方法和LLMS-呈现可及性和可伸缩性挑战。为了解决这些问题,我们提出了一个全面的蓝图,该蓝图根据对所有RLM工作的调查和分析,将RLM组件组织到模块化框架中 ...
神经网络以大型语言模型、语音转录系统、分子发现算法、机器人等形式围绕着我们。除去其他任何东西,神经网络是由可微基元组成的,研究它们意味着学习如何编程以及如何与这些模型交互,这是所谓可微编程的一个特殊例子。这本初级读物是对这个令人着迷的领域的介绍,它是为像爱丽丝这样刚刚冒险进入这个奇怪的可微仙境的人想象的 ...
大型语言模型(LLM)在自然语言理解和生成方面表现出了卓越的能力。然而,他们经常难以完成复杂的推理任务,并且容易产生幻觉。最近的研究表明,利用知识图谱 (KG) 来提高 LLM 的成绩具有良好的前景 ...
OpenAI 最近推出的强化微调 (RFT) 展示了推理基础模型的潜力,并提供了超越简单模式模仿的微调新范式。这份技术报告介绍了 \emph{OpenRFT},我们尝试在与 RFT 相同的设置下针对特定领域的任务微调通用推理模型。 OpenRFT 通过以下三种方式利用特定领域的样本,解决了缺乏推理步骤数据和训练样本数量有限的两个关键挑战:问题增强、综合推理过程数据和少样本 ICL ...