随着数字化的迅速发展,各种文档图像在生产和日常生活中被更广泛地应用,并且越来越需要在文档图像中快速准确地解析内容。因此,本报告介绍了PP-Docbee,这是一种新型的多模式大语言模型,旨在端到端文档图像理解。首先,我们制定了一种用于记录方案的数据综合策略,在该策略中,我们构建了一个不同的数据集以改善模型概括 ...
0 0 0 2025/07/22 arXiv:2503.04065v3 kbwzy
当大型语言模型通过监督的微调对齐时,它们可能会遇到未通过预培训获得的新事实信息。通常认为,这可以教导模型对事实错误反应的幻觉行为,因为该模型经过训练以产生未基于其先前存在的知识的事实。在这项工作中,我们研究了这种新知识对微调模型利用其先前知识能力的影响的影响 ...
0 0 0 2025/07/22 arXiv:2405.05904v3 18812680264
随着在线视频平台的蓬勃发展和视频内容量的不断增加,对熟练的视频理解工具的需求显着增强。鉴于大型语言模型 (LLM) 在语言和多模式任务中的卓越能力,本次调查详细概述了利用 LLM (Vid-LLM) 的力量的视频理解的最新进展。 Vid-LLM 的新兴能力令人惊讶地先进,特别是它们的开放式多粒度(一般、时间和时空)推理与常识知识相结合的能力,为未来视频理解提供了一条有希望的道路 ...
0 0 0 2025/07/22 arXiv:2312.17432v5 smallz
从历史上看,科学发现一直是一个漫长而昂贵的过程,从最初的概念到最终结果需要大量时间和资源。为了加速科学发现,降低研究成本并提高研究质量,我们介绍了代理实验室,这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想,并通过三个阶段进行了进展 - 验证,实验和报告写作,以产生全面的研究成果,包括代码存储库和研究报告,同时使用户能够在每个阶段提供反馈和指导 ...
0 0 0 2025/07/22 arXiv:2501.04227v2 15966829631
可靠的高清(HD)地图结构对于自动驾驶汽车的驾驶安全至关重要。尽管最近的研究表明性能的提高,但它们在陌生的驾驶场景中的概括能力仍未得到探索。为了解决这个问题,我们提出了UIGENMAP,这是一种不确定性的实践结构注入方法,用于可推广的HD MAP矢量化,这涉及统计分布中的不确定性重新采样,并采用明确的实例功能来减少过度依赖对培训数据的依赖 ...
0 0 0 2025/07/22 arXiv:2503.23109v1 xiaotianyu
一个低地球轨道(LEO)卫星星座由大量的小卫星组成,在太空中行驶,并收集大量的流动数据,例如天气预报的云运动,大量的动物群,跨地理区域迁移,蔓延的森林火灾和飞机追踪。可以利用机器学习来分析这些移动性数据以应对全球挑战,而联合学习(FL)是一种有前途的方法,因为它消除了传输原始数据的需求,因此既是带宽,又是隐私友好的。但是,FL需要客户(卫星)和参数服务器(PS)之间的许多通信回合,从而导致LEO星 ...
0 0 0 2025/07/22 arXiv:2305.12316v1 cyyo
大型语言模型(LLMS)表现出在解决科学问题方面有希望的能力,但经常遭受幻觉问题。在将LLM与工具集成可以减轻此问题的同时,对工具使用情况进行微调的模型对它们过高,并产生不必要的成本。在选择解决方案之前人类专家如何评估问题复杂性的启发下,我们提出了一种新颖的两部分微调方法,在学习时适应(AWL) ...
0 0 0 2025/07/22 arXiv:2411.00412v4 15966829631
最近,具有长期思考推理的大型语言模型(LLMS)像DeepSeek-R1-Have一样,在奥林匹克级数学基准中取得了令人印象深刻的结果。但是,他们经常依靠一组狭窄的策略,并在需要一种新颖思维方式的问题上挣扎。为了系统地研究这些局限性,我们引入了Omega-Omega分发数学问题评估评估,并使用3个概括轴 -  A受控但多样化的基准测试,旨在评估三个轴的分布外泛化轴,灵感来自Boden的创造力的类型 ...
0 0 0 2025/07/22 arXiv:2506.18880v1 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)