使用数值反馈(例如标量奖励)的加强学习(RL)的最新进展显着增强了大语言模型(LLMS)的复杂推理能力。尽管取得了成功,但我们确定了RL遇到的三个关键挑战,只有数值反馈:性能高原,自我反射的有效性和持续失败。然后,我们证明,即使在表现出性能高原之后,RL-FineTy的模型也可以通过以批评形式利用自然语言反馈来对持续失败的问题产生正确的改进 ...

0 1 0 0 2025/07/26 arXiv:2506.03106v4 ymx

由于其高保真和实时的小说视图综合性能,3D高斯裂(3DGS)已成为SLAM的流行解决方案。但是,一些以前的3DG SLAM方法采用可区分的渲染管道进行跟踪,在室外场景中缺乏几何先验。其他方法引入了单独的跟踪模块,但它们会通过显着的相机运动积累错误,从而导致尺度漂移 ...

0 0 0 0 2025/07/26 arXiv:2507.03737v2 18855807556

视觉模型(VLMS)在多模式任务中表现出色。但是,过度长的多模式输入会导致超大键值(KV)缓存,从而导致大量内存消耗和I/O瓶颈。大型语言模型(LLMS)的先前KV量化方法可能会减轻这些问题,但忽略了多模式 Token 的注意力显着性差异,从而导致次优性能 ...

0 0 0 0 2025/07/26 arXiv:2501.15021v1 zaizhu

生成模型(例如扩散)已被用作世界模型在离线增强学习中,以生成合成数据以进行更有效的学习。现有工作要么在训练前一次生成扩散模型,要么需要其他交互数据才能对其进行更新。在本文中,我们提出了一种新颖的方法,用于通过闭环政策评估和世界模型的适应来进行离线增强学习 ...

0 0 0 0 2025/07/26 arXiv:2405.19878v1 naristlia

在多任务学习(MTL)中,对联合模型进行了培训,可以同时对几个任务进行预测。联合培训降低了计算成本并提高数据效率;但是,由于这些不同任务的梯度可能需要冲突,因此训练MTL的联合模型通常比其相应的单任务同行产生的性能低。减轻此问题的一种常见方法是使用特定的启发式方法将每个任务梯度组合到联合更新方向上 ...

0 0 0 0 2025/07/26 arXiv:2202.01017v2 火火火

我们为使用神经序列模型提供了两个用于多任务学习的体系结构。我们的方法允许动态学习不同任务之间的关系,而不是像以前的工作那样使用临时的预定义结构。我们采用了通过消息的图形神经网络的想法,并提出了一个通用\ textbf {图形多任务学习}框架,其中不同的任务可以以有效且可解释的方式相互通信 ...

0 0 0 0 2025/07/26 arXiv:1811.10211v1 火火火

联合学习(FL)允许多个参与者通过在仅交换模型更新的同时保持其数据集的本地来协作训练机器学习模型。 las,这不一定没有隐私和鲁棒性,例如 ...

0 0 0 0 2025/07/26 arXiv:2009.03561v5 火火火

大型语言模型(LLM)由于依赖静态培训数据而与幻觉和过时的知识斗争。通过集成外部动态信息来增强事实和更新的基础,检索增强的生成(RAG)通过整合外部动态信息来减轻这些问题。多模式学习的最新进展导致了多模式抹布的发展,并结合了多种模式,例如文本,图像,音频和视频,以增强生成的输出 ...

0 0 0 0 2025/07/26 arXiv:2502.08826v3 mulanshine

在多任务学习中,共同解决了多个任务,在它们之间共享归纳偏见。多任务学习本质上是一个多目标问题,因为不同的任务可能需要冲突,因此需要权衡。一个常见的妥协是优化一个替代目标,该目标可以最大程度地减少按任务损失的加权线性组合 ...

0 0 0 0 2025/07/26 arXiv:1810.04650v2 火火火

绝大多数深层模型都使用多个梯度信号,通常与多个损失条款的总和相对应,以更新一组共享的可训练权重。但是,这些多个更新可以通过将模型置于冲突的方向上来阻碍最佳培训。我们提出了梯度符号辍学(GradDrop),这是一种概率掩蔽过程,该过程根据其一致性水平在激活层中采样梯度 ...

0 0 0 0 2025/07/26 arXiv:2010.06808v1 火火火

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)