当语言模型(LMS)通过加强学习(RL)培训以生成自然语言“推理链”时,他们的性能会在各种难以回答任务的困难问题上提高。如今,RL用于推理的几乎所有成功应用都使用二进制奖励功能来评估LM输出的正确性。由于这种奖励功能不会惩罚猜测或低信心输出,因此它们通常具有降解校准的意外副作用,并增加了LMS在其他问题域中产生错误的响应(或“幻觉”)的速率 ...
0 0 0 2025/09/22 arXiv:2507.16806v1 lyg
通过增强学习(RL)的微调大语言模型(LLM)的最新进展显示出了有希望的复杂推理任务的改进,尤其是当与经过多链(COT)提示配对时。但是,这些成功已在具有数十亿个参数的大型模型上得到了很大的证明,在该模型中,强大的基础可确保有效的初始探索。相比之下,RL对于具有10亿个参数或更少参数的微型LLM仍然具有挑战性,因为它们缺乏有效探索的必要预处理强度,通常会导致次优推理模式 ...
0 0 0 2025/09/22 arXiv:2504.02273v1 lyg
磁共振成像(MRI)和计算机断层扫描(CT)是医学成像领域中使用的主要方式。尽管MRI捕获了比CT更详细的解剖结构的复杂性,但它需要更高的财务成本,并且需要更长的图像获取时间。在这项研究中,我们旨在训练CT到MRI转换的潜在扩散模型,并使用称为MAMBA的状态空间模型(SSM)代替常用的U-NET或 Transformer 主链,该模型称为MAMBA,该模型在潜在的斑块上运行 ...
0 0 0 2025/09/22 arXiv:2406.15910v1 CZ
当前的最新视频理解方法通常面临两个关键挑战:(1)处理密集的视频内容中的每个帧的计算不可行性以及(2)难以通过幼稚的统一采样策略来识别具有语义上有意义的框架。在本文中,我们提出了一个新颖的视频理解框架,称为Chronoforge-RL,该框架结合了时间顶点蒸馏(TAD)和Keyframe-Aware-After-After Group相对政策优化(KF-GRPO)来解决这些问题。具体而言,我们引入 ...
0 0 0 2025/09/22 arXiv:2509.15800v1 麦兜
多模式大语言模型(MLLM)的快速发展使他们与人类偏好保持一致。奖励模型(RMS)是实现这一目标的核心技术,但是目前在学术界和行业中都缺乏建立最先进的多模式奖励模型(MRM)的系统指南。通过详尽的实验分析,本文旨在提供清晰的``食谱'',用于构建高性能MRMS ...
0 0 0 2025/09/22 arXiv:2509.16127v1 麦兜
考虑到蛋白质的重要​​性,计算蛋白科学一直是一个关键的科学领域,致力于揭示蛋白质序列结构功能范围内的知识和发展应用。在过去的几十年中,人工智能(AI)对计算蛋白科学产生了重大影响,从而在特定的蛋白质建模任务中取得了显着成功。但是,这些先前的AI模型仍然达到局限性,例如很难理解蛋白质序列的语义,以及无法跨越各种蛋白质建模任务的概括 ...
0 0 0 2025/09/22 arXiv:2501.10282v2 chaojijiayou
模式链接是在文本到SQL任务中实现人类水平的性能的关键瓶颈,尤其是在现实世界中的大规模多数据库方案中。解决架构链接面临两个主要挑战:(1)数据库检索:从多数据库设置中的大型模式池中选择正确的数据库,同时滤除无关的数据库。 (2)架构项目接地:准确地识别来自SQL生成的大而冗余模式中的相关表和列 ...
0 0 0 2025/09/22 arXiv:2503.18596v4 stringify
长期以来,从视觉观察中重建4D空间智能一直是计算机视觉中的一项核心但充满挑战的任务,并具有广泛的现实应用程序。这些范围从电影(如电影)等娱乐领域(通常是重建基本视觉元素)到体现AI的重点,该元素强调了互动建模和物理现实主义。在3D表示和深度学习体系结构中的快速进步的推动下,该领域迅速发展,超过了先前调查的范围 ...
0 0 0 2025/09/22 arXiv:2507.21045v2 xubiao

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)