在本文中,我们在享乐游戏(HGS)的背景下,以朋友的欣赏(FA)偏好研究了一种轻松的策略性操纵性(NOM)。在HGS中,目的是根据他们的偏好将代理人分为联盟,这完全取决于他们被分配的联盟。在FA偏好下,代理商考虑了任何其他代理人,无论是朋友还是敌人,都更喜欢与更多朋友的联盟,如果有联系,那些敌人的敌人较少 ...
多模式推理的最新进展在很大程度上忽略了音频方式。我们介绍了Audio-Reasoner,这是一种大规模的音频语言模型,用于在音频任务中进行深入推理。我们精心策划了具有简单注释的大规模和多样化的多任务音频数据集 ...
知识基础问题回答(KBQA)旨在用大规模的结构化知识库(KB)回答自然语言问题。尽管有大型语言模型(LLMS)的进步,KBQA仍然面临KB意识,有效性和效率之间的不平衡以及对注释数据的高度依赖的挑战。为了应对这些挑战,我们提出了KBQA-O1,这是一种具有蒙特卡洛树搜索(MCTS)的新型代理KBQA方法 ...
最近的研究表明,使模型花费更多的时间通过更长的思想链(COT)进行思考,从而使其能够在复杂的推理任务中获得重大改进。尽管当前的研究继续通过扩展大型语言模型(LLMS)的COT长度来探索增加测试时间计算的好处,但我们担心当前追求测试时间扩展的潜在问题:过度扩展COT实际上会给模型的推理绩效带来不利影响吗?我们对数学推理任务的探索揭示了一个意外的发现,即使用更长的COTS缩放确实会损害某些域中LLM的推理性能。此外,我们发现存在最佳的缩放长度分布,在不同的域之间有所不同 ...
大型语言模型(LLMS)在通过诸如Thebough(COT)提示之类的机制来解决复杂的推理任务方面表现出了显着的性能,该机制强调了详细的,逐步的推理。但是,人类通常采用更有效的策略:起草简洁的中间思想,只捕获基本信息。在这项工作中,我们提出了草稿链(COD),这是一种受人类认知过程启发的新型范式,在该过程中,LLMS在解决任务时会产生简约但内容丰富的中间推理输出 ...
从互联网上快速扩展的信息中获取有价值的数据已成为一个重大问题,并且推荐系统已成为一种广泛使用且有效的工具,可帮助用户发现感兴趣的项目。推荐系统的本质在于它们能够预测用户评级或各种项目的偏好,并随后根据历史互动数据和公开可用信息推荐最相关的评分。随着多种多媒体服务的出现,包括文本,图像,视频和音频,人类可以通过多种方式感知世界 ...
数据在机器学习研究中起着至关重要的作用。在建议的研究中,用户行为和侧面信息都对用户有帮助。因此,具有丰富用户行为的大规模实际场景数据集将大大贡献 ...
我们研究一种新型的语言模型体系结构,能够通过潜在空间中隐式推理来扩展测试时间计算。我们的模型通过迭代复发块来起作用,从而在测试时间内展开对任意深度。这与主流推理模型相反,该模型通过产生更多的 Token 来扩展计算 ...
大型语言模型(LLM)由于依赖静态培训数据而与幻觉和过时的知识斗争。通过集成外部动态信息来增强事实和更新的基础,检索增强的生成(RAG)通过整合外部动态信息来减轻这些问题。多模式学习的最新进展导致了多模式抹布的发展,并结合了多种模式,例如文本,图像,音频和视频,以增强生成的输出 ...
推理语言模型(RLMS),也称为大型推理模型(LRMS),例如OpenAI的O1和O3,DeepSeek-V3和Alibaba的QWQ,通过通过具有先进的推理机制扩展LLM来重新定义AI的解决问题的能力。然而,它们的高成本,专有性质和复杂的体系结构 - 独特地结合了增强学习(RL),搜索启发式方法和LLMS-呈现可及性和可伸缩性挑战。为了解决这些问题,我们提出了一个全面的蓝图,该蓝图根据对所有RLM工作的调查和分析,将RLM组件组织到模块化框架中 ...