就像面临艰苦考试问题的学生一样,大型语言模型有时会猜测不确定的时候,产生合理但不正确的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统和破坏信任中也存在。我们认为语言模型幻觉是因为培训和评估程序奖励猜测不确定性,并且我们分析了现代培训管道中幻觉的统计原因 ...
0 1 0 2025/09/08 arXiv:2509.04664v1 takkeri
语义文本表示是自然语言处理领域的基本任务。现有的文本嵌入(例如 ...
0 0 0 2025/09/08 arXiv:2505.10354v2 orion.zou
我们提出了Galaxea Open-World数据集,这是一个大规模的,多样化的机器人行为集合,记录在真实的人类生活和工作环境中。所有示范均使用一致的机器人实施例收集,并与精确的子任务级别注释配对,以促进培​​训和评估。在此数据集的基础上,我们介绍了G0,这是一个双层系统框架,该框架将视觉模型(VLM)与视觉语言行动(VLA)模型(VLA)模型相结合,以进行细粒度执行 ...
0 0 0 2025/09/08 arXiv:2509.00576v1 llliuxiao
这本书是为了帮助学生将量子力学的所有概念转变为具体的计算机表示,这些量子可以在更深层次的水平上构建,评估,分析和希望在更深层次的水平上理解。它是为瑞士巴塞尔大学每年举行的硕士和博士学位演讲而撰写的。目的是给学生提供一种语言,在该语言中可以更详细地谈论量子物理,并以这种语言的流利性开始学生 ...
0 0 0 2025/09/08 arXiv:1403.7050v3 parsifalster
长期的视频生成从根本上是一个漫长的上下文记忆问题:模型必须保留和检索远距离的显着事件,而不会崩溃或漂移。但是,将扩散 Transformer 缩放为生成长篇小说视频的缩放量受到自我注意的二次成本的限制,这使得记忆和计算很难进行,并且难以为长序列进行优化。我们将长篇小说视频生成重新铸造为内部信息检索任务,并提出了一个简单,可学习的稀疏注意路由模块,上下文(MOC)的混合物,作为有效的长期内存检索引擎 ...
0 0 0 2025/09/08 arXiv:2508.21058v1 smallz
3d语义占用预测是自动驾驶领域的一项关键任务。最近的方法在单一模态的3d语义占用预测方面取得了巨大进展。然而,多模态语义占用预测方法在处理不同模态数据融合过程中出现的模态异质性、模态错位和模态交互不足等方面遇到了困难,这可能导致重要的几何和语义信息的丢失... ...
0 0 0 2025/09/08 arXiv:2404.04561v3 chenhualin
视觉接地旨在根据自然语言描述识别场景中的对象或区域,这对于自主驾驶中空间意识的感知至关重要。但是,现有的视觉接地任务通常取决于通常无法捕获细粒细节的边界框。并非占据边界框中的所有体素都被占据,从而导致对象表示不准确 ...
0 0 0 2025/09/08 arXiv:2508.01197v2 chenhualin
我们提出了Magi-1,这是一个世界模型,通过自动调查来预测一系列视频块,该模型定义为连续帧的固定长度段。 MAGI-1经过训练以随着时间的流逝而单调增加的DeNoise每块噪声,可实现因果时间建模,并且自然支持流的生成。它在基于文本说明的条件下的图像到视频(I2V)任务上实现了强劲的性能,提供了高度的时间一致性和可扩展性,这些算法创新和专用的基础架构堆栈使得它们成为可能 ...
0 0 0 2025/09/08 arXiv:2505.13211v1 kevinson

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)