从人类反馈(RLHF)中学习的强化已成为将大语言模型(LLMS)与培训期间人类偏好保持一致的重要范式。该框架通常涉及两个阶段:首先,在人类偏好数据上培训奖励模型,然后使用增强学习算法优化语言模型。但是,当前的RLHF方法可能受到两个限制的约束 ...
0 0 0 2025/04/09 arXiv:2504.04950v1 leec
我们介绍了世界分类基准,这是世界一代的第一个统一基准。我们将世界一代分解为一系列隔壁的生成任务,具有明确的基于相机轨迹的布局规范,从而可以对从3D和4D场景生成到视频生成模型的各种方法进行统一的评估。 WorldScore的基准分配了一个策划的数据集,其中包含3,000个测试示例,这些数据集涵盖了各种世界:静态和动态,室内和室外,室内和室外,具有现实主义和风格化 ...
0 0 0 2025/04/09 arXiv:2504.00983v1 13031102548
在诸如接地派和莱迪诺(Lae-Dino)之类的广泛数据集上预估计的基础模型在跨域几乎没有对象检测(CD-FSOD)任务中表现出色。通过严格的几次训练,我们发现基于图像的数据增强技术和基于网格的子域搜索策略的整合显着增强了这些基础模型的性能。在接地迪诺的基础上,我们采用了几种广泛使用的图像增强方法,并建立了优化目标,以有效地导航宽敞的域空间,以寻找最佳的子域 ...
0 0 0 2025/04/09 arXiv:2504.04517v1 Jht
大型语言模型(LLMS)改变了自然语言处理景观,并使多样化的应用栩栩如生。在大量的网络规模数据上进行了预处理为这些模型奠定了基础,但是研究界现在越来越多地转移到训练后技术方面,以实现进一步的突破。虽然预处理提供了广泛的语言基础,但培训后方法使LLMS能够完善其知识,提高推理,提高事实准确性,并更有效地与用户的意图和道德注意事项更有效地保持一致 ...
0 0 0 2025/04/09 arXiv:2502.21321v2 lunarcloud
配备了网络搜索功能的大型语言模型(LLM)表现出了深入研究任务的令人印象深刻的潜力。但是,当前的方法主要依赖于在受控检索仪(基于RAG)环境(基于RAG)环境(基于RAG)中的手动工程提示(基于工程的提示)(及时工程),这些提示(基于RAG)无法捕获现实世界互动的复杂性。在本文中,我们介绍了Deepresearcher,这是通过缩放强化增强学习(RL)在具有正宗的Web搜索交互的现实环境中通过缩放 ...
0 0 0 2025/04/09 arXiv:2504.03160v2 Kane
多模式时间序列分析最近已成为数据挖掘的重要研究领域,这是由于来自现实世界来源的文本,图像和结构化表格数据的可用性不断提高。但是,多模式时间序列的有效分析受到数据异质性,模态差距,未对准和固有噪声的阻碍。多模式时间序列方法的最新进步通过基于深度学习方法的跨模式相互作用利用了多模式上下文,从而显着增强了各种下游任务 ...
0 0 0 2025/04/09 arXiv:2503.13709v1 xiaoming513513
我们提出了针对推理模型的VAPO,基于价值的增强近端策略优化框架。这是一个针对基于价值范式中推理模型的新颖框架。基于QWEN 32B预培训模型的AIME 2024数据集VAPO的基准测试,达到了$ \ mathbf {60的最先进分数 ...
0 0 0 2025/04/09 arXiv:2504.05118v2 qly6353508
发明新颖和有趣的问题的能力是人类智能的非凡特征,它推动了创新,艺术和科学。我们提出了一种方法,旨在通过利用最先进的生成模型的力量来产生各种具有挑战性但可解决的问题,以在Python编程难题的背景下产生各种具有挑战性但可解决的问题。受本质上动机的文献启发,自动代码搜索(ACE)共同优化了产生问题的多样性和困难 ...
0 0 0 2025/04/09 arXiv:2310.10692v4 15335893430

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)