大型语言模型可能会产生事实不准确的内容,这是一个称为幻觉的问题。最近的作品是基于检索到的一代,以通过迭代提示来改善事实,但这些方法受传统的抹布设计的限制。为了应对这些挑战,我们介绍了母羊(明确的工作记忆),这是一种新颖的方法,通过整合从外部资源中接收实时反馈的工作记忆来增强长篇文本生成中的事实 ...
0 0 0 2025/09/10 arXiv:2412.18069v3 Chris_
哪种音频嵌入方法最能推广到无需微调的各种日常域中的各种下游任务? HEAR 2021 NEURIPS挑战的目的是开发通用音频表示,为在各种任务和场景中学习提供了强有力的基础。听到2021年使用基准套件评估音频表示,包括语音,环境声音和音乐。本着共享交流的精神,每个参与者都按照通用,开源和自由使用的通用API提交了音频嵌入模型 ...
0 1 0 2025/09/10 arXiv:2203.03022v3 rosyclouds
尽管多模式大语言模型(MLLM)在视觉任务中具有令人印象深刻的功能,但它们易于在现实世界中的幻觉。本文从形态冲突的角度研究了MLLM中的幻觉现象。与关注模型响应和投入之间的冲突的现有作品不同,我们研究了来自不同方式的投入中的固有冲突,这些方式将MLLM置于困境中并直接导致幻觉 ...
0 0 0 2025/09/10 arXiv:2507.07151v1 13080420360
 Transformer 在大规模3d点云感知任务(例如3d对象检测)中的优势受到建模远程关系时的二次计算成本的限制。相比之下... ...
0 0 0 2025/09/10 arXiv:2407.18232v1 HighD
强化学习已成为一种训练后的方法,以引起代理抹布行为,例如从语言模型中进行搜索和计划。但是,紧凑的语言模型(例如 ...
0 0 0 2025/09/10 arXiv:2508.20324v2 yywdys
我们介绍了OpenFactScore,这是评估大语言模型(LLMS)生成的文本的事实框架的开源实现。 Factscore通过使用原子事实生成(AFG)来评估长形式文本的事实准确性(AFG)来提取个人事实主张和原子事实验证(AFV),以对可信赖的知识来源验证每个主张。虽然原始的Factscore依赖于封闭式和商业模型(例如Consendgpt和Chatgpt),但OpenFactScore允许使用任 ...
0 0 0 2025/09/10 arXiv:2507.05965v1 Chris_
大型语言模型(LLM)广泛用于长篇文本生成。但是,响应中的事实错误将破坏其可靠性。尽管人们对LLM事实的关注日益增加,但响应长度对事实的影响仍未得到充实 ...
0 0 0 2025/09/10 arXiv:2505.23295v1 Chris_
现在,大型语言模型通常用于幻觉可能造成严重伤害的高风险应用中,例如医疗咨询或法律建议。但是,现有的幻觉检测方法对于现实世界的使用是不切实际的,因为它们要么仅限于简短的事实查询,要么需要昂贵的外部验证。我们提出了一种廉价,可扩展的方法,用于实时识别长期的幻觉 Token ,并有效地扩展到70B参数模型 ...
0 0 0 2025/09/10 arXiv:2509.03531v1 earl

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)