生成奖励模型(GRM)比标量奖励模型在捕获人类的偏好时提供了更大的灵活性,但是其有效性受到不良推理能力的限制。这通常会导致不完整或过度投机的推理路径,从而导致复杂任务中的幻觉或缺少关键信息。我们使用ReasongRM(一个三阶段的生成奖励建模框架)来应对这一挑战 ...

0 0 0 0 2025/07/22 arXiv:2506.16712v1 Barca

本调查概述了强化学习 (RL) 和机器人技术背景下的视频学习 (LfV) 方法。我们专注于能够扩展到大型互联网视频数据集的方法,并在此过程中提取有关世界动态和人类物理行为的基础知识。这些方法为开发通用机器人带来了巨大的希望 ...

0 0 0 0 2025/07/22 arXiv:2404.19664v4 zhlstone

随着数字化的迅速发展,各种文档图像在生产和日常生活中被更广泛地应用,并且越来越需要在文档图像中快速准确地解析内容。因此,本报告介绍了PP-Docbee,这是一种新型的多模式大语言模型,旨在端到端文档图像理解。首先,我们制定了一种用于记录方案的数据综合策略,在该策略中,我们构建了一个不同的数据集以改善模型概括 ...

0 0 0 0 2025/07/22 arXiv:2503.04065v3 kbwzy

当大型语言模型通过监督的微调对齐时,它们可能会遇到未通过预培训获得的新事实信息。通常认为,这可以教导模型对事实错误反应的幻觉行为,因为该模型经过训练以产生未基于其先前存在的知识的事实。在这项工作中,我们研究了这种新知识对微调模型利用其先前知识能力的影响的影响 ...

0 0 0 0 2025/07/22 arXiv:2405.05904v3 18812680264

随着在线视频平台的蓬勃发展和视频内容量的不断增加,对熟练的视频理解工具的需求显着增强。鉴于大型语言模型 (LLM) 在语言和多模式任务中的卓越能力,本次调查详细概述了利用 LLM (Vid-LLM) 的力量的视频理解的最新进展。 Vid-LLM 的新兴能力令人惊讶地先进,特别是它们的开放式多粒度(一般、时间和时空)推理与常识知识相结合的能力,为未来视频理解提供了一条有希望的道路 ...

0 0 0 0 2025/07/22 arXiv:2312.17432v5 smallz

从历史上看,科学发现一直是一个漫长而昂贵的过程,从最初的概念到最终结果需要大量时间和资源。为了加速科学发现,降低研究成本并提高研究质量,我们介绍了代理实验室,这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想,并通过三个阶段进行了进展 - 验证,实验和报告写作,以产生全面的研究成果,包括代码存储库和研究报告,同时使用户能够在每个阶段提供反馈和指导 ...

0 0 0 0 2025/07/22 arXiv:2501.04227v2 15966829631

可靠的高清(HD)地图结构对于自动驾驶汽车的驾驶安全至关重要。尽管最近的研究表明性能的提高,但它们在陌生的驾驶场景中的概括能力仍未得到探索。为了解决这个问题,我们提出了UIGENMAP,这是一种不确定性的实践结构注入方法,用于可推广的HD MAP矢量化,这涉及统计分布中的不确定性重新采样,并采用明确的实例功能来减少过度依赖对培训数据的依赖 ...

0 0 0 0 2025/07/22 arXiv:2503.23109v1 xiaotianyu

一个低地球轨道(LEO)卫星星座由大量的小卫星组成,在太空中行驶,并收集大量的流动数据,例如天气预报的云运动,大量的动物群,跨地理区域迁移,蔓延的森林火灾和飞机追踪。可以利用机器学习来分析这些移动性数据以应对全球挑战,而联合学习(FL)是一种有前途的方法,因为它消除了传输原始数据的需求,因此既是带宽,又是隐私友好的。但是,FL需要客户(卫星)和参数服务器(PS)之间的许多通信回合,从而导致LEO星座的大幅度延迟 ...

0 0 0 0 2025/07/22 arXiv:2305.12316v1 cyyo

大型语言模型(LLMS)表现出在解决科学问题方面有希望的能力,但经常遭受幻觉问题。在将LLM与工具集成可以减轻此问题的同时,对工具使用情况进行微调的模型对它们过高,并产生不必要的成本。在选择解决方案之前人类专家如何评估问题复杂性的启发下,我们提出了一种新颖的两部分微调方法,在学习时适应(AWL) ...

0 0 0 0 2025/07/22 arXiv:2411.00412v4 15966829631

最近,具有长期思考推理的大型语言模型(LLMS)像DeepSeek-R1-Have一样,在奥林匹克级数学基准中取得了令人印象深刻的结果。但是,他们经常依靠一组狭窄的策略,并在需要一种新颖思维方式的问题上挣扎。为了系统地研究这些局限性,我们引入了Omega-Omega分发数学问题评估评估,并使用3个概括轴 - A受控但多样化的基准测试,旨在评估三个轴的分布外泛化轴,灵感来自Boden的创造力的类型:(1)探索性解决问题的问题,以解决更为复杂的问题,以在同一问题域内进行更复杂的问题域内域内的更复杂的实例; (2)以前是孤立学到的构图构成组合,以解决需要以新的和连贯的方式整合这些技能的新颖问题; (3)通过超越熟悉的方法来更有效地解决问题的方法,通常是非常规的策略 ...

0 0 0 0 2025/07/22 arXiv:2506.18880v1 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)