大语言模型(LLM)中的幻觉是指不忠于意见或现实世界事实的内容的产生。本文提供了对LLM中幻觉的严格处理,包括正式的定义和理论分析。我们区分固有和外在的幻觉,并为模型定义A \ TextIt {幻觉风险} ...
0 0 0 2025/08/25 arXiv:2507.22915v1 lpfgss
聊天的复杂性对机器翻译模型构成了重大挑战。认识到需要进行精确评估指标以解决聊天翻译问题,本研究介绍了聊天翻译的多维质量指标(MQM-CHAT)。通过使用MQM-CHAT的五个模型的实验,我们观察到所有模型都会产生某些基本错误,而每个模型都有不同的缺点,例如省略,过于纠正模棱两可的源内容和流行语问题,从而导致丢失风格化的信息 ...
0 0 0 2025/08/25 arXiv:2408.16390v2 NeverSettle
多代理辩论(MAD)已成为一种有希望的方法,可以通过使多个代理参与推理期间的迭代讨论来提高大语模型(LLMS)的事实准确性和推理质量。尽管具有潜力,但我们认为当前的MAD研究遭受了评估实践的关键缺点,包括数据集有限的重叠和不一致的基线,引起了人们对概括性的重大关注。相应地,本文使用四个基础模型对九个基准的五种代表性MAD方法进行了系统评估 ...
0 0 0 2025/08/25 arXiv:2502.08788v3 lpfgss
大型语言模型的发展迎来了新的教育范式。本文集中在教育中的多代理系统上,并提出了von Neumann Multi-Agent System框架。它将每个AI代理分解为四个模块:控制单元,逻辑单元,存储单元和输入输出设备,定义四种类型的操作:任务解构,自我反射,内存处理和工具调用 ...
0 0 0 2025/08/25 arXiv:2501.00083v1 lpfgss
这是对弦理论和M理论的最新发展的介绍。我们试图专注于主要的物理方面,并经常将更多的技术细节留给原始文献 ...
0 0 1 2025/08/25 arXiv:hep-th/9811019v2 QqHhFf11
在这项工作中,我们解决了子空间恢复问题。给定一组大约从多个子空间联合绘制的数据样本(向量),我们的目标是将样品分割为各自的子空间,并纠正可能的错误。为此,我们提出了一种称为低级表示(LRR)的新方法,该方法在给定词典中所有可以将数据样本表示为碱基的线性组合的候选者中寻求最低级别的表示 ...
0 0 0 2025/08/25 arXiv:1010.2955v6 FOUR_A
在许多领域(例如自然语言处理和计算机视觉)中,广泛验证了缩放定律。在推荐系统中,最近的工作采用了生成建议来实现可扩展性,但是它们的生成方法需要放弃传统推荐模型的精心构造的跨特征。我们发现,这种方法会大大降低模型性能,并且扩大无法补偿 ...
0 1 0 2025/08/25 arXiv:2505.18654v4 光球层上的黑子
尽管其能力取得了重大进展,但多模式大语言模型(MLLM)的可信赖性仍然是一个密集的关注。现有的评估和缓解方法通常集中在狭窄的方面和忽略多模式引入的风险上。为了应对这些挑战,我们提出了MultiTrust-X,这是评估,分析和缓解MLLM的可信度问题的全面基准 ...
0 0 0 2025/08/25 arXiv:2508.15370v1 hhhhh

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)