大型语言模型 (LLM) 的兴起极大地推进了软件工程任务的各种应用,特别是在代码生成方面。尽管表现很有前景,但 LLM 很容易产生幻觉,这意味着 LLM 可能会产生偏离用户意图、表现出内部不一致或与现实世界知识不一致的输出,从而使得 LLM 在广泛的应用中的部署存在潜在风险。现有的工作主要集中于研究自然语言生成(NLG)领域的幻觉,在全面理解代码生成背景下幻觉的类型、原因和影响方面存在差距。为了弥补这一差距,我们对 LLM 生成的代码进行了主题分析,以总结和分类幻觉及其原因和影响。我们的研究建立了一个全面的代码幻觉分类法,包括 3 个主要类别和 12 个具体类别。此外,我们系统地分析了幻觉的分布,探索不同 LLM 和基准之间的差异。此外,我们对各种幻觉的原因和影响进行了深入分析,旨在为缓解幻觉提供有价值的见解。最后,为了以轻量级的方式增强LLM生成代码的正确性和可靠性,我们通过提示增强技术探索免训练的幻觉缓解方法。我们相信,我们的研究结果将为未来关于代码幻觉评估和缓解的研究提供启示,最终为未来建立更有效、更可靠的代码 LLM 铺平道路。复制包可从此 https URL 获取 ...
模型幻觉是大型语言模型 (LLM) 面临的最严峻的挑战之一,尤其是在高风险的代码智能任务中。随着 LLM 越来越多地融入软件工程任务,理解和减轻代码中的幻觉变得至关重要。在这项调查中,我们从四个关键角度对面向代码的 LLM 中的幻觉现象进行了系统回顾。首先,我们首先调查了 60 篇论文,以定义代码背景下的幻觉,并总结其主要原因,例如数据噪声、暴露偏差和语义基础不足,同时还追踪自然语言处理 (NLP) 和软件工程社区文献的最新趋势。其次,我们回顾了更广泛范围内的模型幻觉调查,并总结了代表性的幻觉缓解策略,例如知识增强生成、受限解码和后期编辑。第三,我们回顾了针对代码智能的方法,并强调了加剧幻觉的代码特定挑战,包括语法敏感性、严格的类型系统和对外部库的依赖。同时,我们分析了如何利用新兴的代码智能任务(例如程序分析、符号执行和单元测试)来检测和减轻幻觉。第四,我们总结了当前的评估基准,从静态指标到动态检查,例如编译和执行的正确性,并强调面向幻觉的基准的必要性 ...
大型语言模型(LLM)因其在不同领域的令人印象深刻的表现而广受欢迎。然而, LLM 很容易产生不真实或无意义的输出,这些输出在许多现实应用中无法满足用户的期望。现有的检测 LLM 幻觉的工作要么依赖外部知识进行参考检索,要么需要对 LLM 的多个响应进行采样以进行一致性验证,使得这些方法成本高昂且效率低下。在本文中,我们提出了一种新颖的无参考、基于不确定性的方法来检测 LLM 的幻觉。我们的方法从三个方面模仿人类在事实性检查中的关注:1)关注给定文本中信息最丰富、最重要的关键词; 2)关注历史背景下不可靠的 Token ,这可能会导致一连串的幻觉; 3)关注 Token 属性,例如 Token 类型和 Token 频率。相关数据集的实验结果证明了我们提出的方法的有效性,该方法在所有评估指标上都实现了最先进的性能,并且不需要额外的信息 ...
大型语言模型(LLM)在各种任务中表现出了卓越的性能,但仍然容易产生幻觉。检测幻觉对于安全关键型应用至关重要,最近的方法利用注意力图特性来实现这一目的,尽管其有效性仍然有限。在这项工作中,我们通过将注意力图解释为图结构的邻接矩阵来研究注意力图的谱特征。我们提出了 $\text{LapEigvals}$ 方法,该方法利用从注意力图导出的拉普拉斯矩阵的前 $k$ 特征值作为幻觉检测探针的输入。实证评估表明,我们的方法在基于注意力的方法中实现了最先进的幻觉检测性能。广泛的消融研究进一步强调了 $\text{LapEigvals}$ 的鲁棒性和泛化性,为幻觉检测领域的未来进步铺平了道路 ...
大型语言模型(LLM)最近引起了广泛的关注,因为它们擅长针对多个领域的给定提示生成创新响应。然而, LLM 经常受到幻觉的固有限制,并在保持结构良好和连贯的反应的同时产生不正确的信息。在这项工作中,我们假设幻觉源于 LLM 的内部动力。我们的观察表明,在段落生成过程中, LLM 往往会在回答的微妙部分偏离事实准确性,最终转向错误信息。这种现象与人类认知相似,个人可能会在保持逻辑连贯性的同时产生幻觉,在其言语的较小片段中嵌入不确定性。为了进一步研究这一点,我们引入了一种创新方法 HalluShift,旨在分析内部状态空间的分布变化和 LLM 生成的响应的 Token 概率。与各种基准数据集的现有基线相比,我们的方法获得了卓越的性能。我们的代码库可通过此 https URL 获取 ...
大型语言模型(LLM)很容易产生非事实或不忠实陈述的幻觉,从而破坏了在现实场景中的应用。最近的研究集中在基于不确定性的幻觉检测,它利用LLM的输出概率进行不确定性计算,并且不依赖于外部知识或LLM的频繁采样。然而,大多数方法仅仅考虑每个独立标记的不确定性,而标记和句子之间复杂的语义关系没有得到很好的研究,这限制了跨越段落中多个标记和句子的幻觉的检测。在本文中,我们提出了一种利用语义图增强不确定性建模以进行幻觉检测的方法。具体来说,我们首先构建一个语义图,它可以很好地捕获实体标记和句子之间的关系。然后,我们结合两个实体之间的关系进行不确定性传播,以增强句子级幻觉检测。鉴于幻觉是由于句子之间的冲突而产生的,我们进一步提出了一种基于图的不确定性校准方法,该方法将句子与其邻居在语义图中的矛盾概率相结合进行不确定性计算。对两个数据集的大量实验显示了我们提出的方法的巨大优势。特别是,我们在通道级幻觉检测方面取得了 19.78% 的显着改进 ...
自治系统很快将无处不在,涵盖制造业、农业、医疗保健、娱乐和其他行业。大多数这些系统都是使用模块化子组件开发的,用于手工设计或基于学习的决策、规划和控制。虽然这些方法在专门设计的情况下表现良好,但在测试时无疑会出现的分布外场景中,它们的表现尤其糟糕。使用令人印象深刻的大数据集进行多项任务训练的基础模型的兴起,使研究人员相信这些模型可能提供现有规划者所缺少的“常识”推理,从而弥合算法开发和部署之间的差距。虽然研究人员在将基础模型部署到决策任务方面显示出了有希望的结果,但众所周知,这些模型会产生幻觉并生成听起来合理但实际上很糟糕的决策。我们认为,有必要退后一步,同时设计可以量化模型决策确定性的系统,并检测模型何时可能出现幻觉。在这项工作中,我们讨论了决策任务基础模型的当前用例,通过示例提供了幻觉的一般定义,讨论了幻觉检测和缓解的现有方法,重点关注决策问题,提出了指南,并探索了这个令人兴奋的领域的进一步研究领域 ...
大型语言模型 (LLM),包括 GPT-3.5、LLaMA 和 PaLM,似乎知识渊博并且能够适应许多任务。然而,我们仍然不能完全相信他们的答案,因为 LLM 患有 \textbf{幻觉}\textemdash 捏造不存在的事实,在有意识或无意识的情况下欺骗用户。然而,它们存在和普遍存在的原因仍不清楚。在本文中,我们证明由随机标记组成的无意义提示也可以引发 LLM 做出幻觉反应。此外,我们提供了理论和实验证据,表明可以通过扰乱 Transformer 的输入序列来操纵 Transformer 来产生特定的预定义 Token 。这种现象迫使我们重新审视\emph{幻觉可能是对抗性例子的另一种观点},它与传统对抗性例子具有相似的特征,作为 LLM 的基本属性。因此,我们以对抗性的方式将自动幻觉触发方法形式化为 \textit{幻觉攻击}。最后,我们探讨了受攻击的对抗性提示的基本属性,并提出了一种简单而有效的防御策略。我们的代码发布在 GitHub\footnote{this https URL} 上 ...
随着在线和离线文本数据的大量存在,迫切需要提取短语之间的关系并用几句话概括每个文档的主要内容。为此,最近在开放信息提取(OIE)方面进行了许多研究。 OIE 通过分析不同领域之间的关系来改进关系提取技术,并避免需要在句子中手动标记预先指定的关系。本文调查了 OIE 的最新方法及其在知识图(KG)、文本摘要和问答(QA)方面的应用。此外,本文还描述了 OIE 关系抽取的基本方法。它简要讨论了主要方法以及每种方法的优缺点。最后,它概述了 OIE、关系提取和 OIE 应用程序的挑战、悬而未决的问题和未来的工作机会 ...
自动知识图谱构建旨在制造结构化的人类知识。为此,历史上人们花费了大量精力从不同的数据源中提取信息丰富的事实模式。然而,最近,研究兴趣已转向获取信息数据之外的概念化结构化知识。此外,研究人员还一直在探索在多样化场景下处理复杂施工任务的新方法。因此,需要对范式进行系统审查,以组织数据级别之外的知识结构。为了满足这一需求,我们综合考察了300多种方法,总结了知识图谱构建的最新进展。知识图谱的构建分为三个步骤:知识获取、知识细化和知识演化。详细回顾了知识获取的过程,包括获取细粒度类型的实体及其与知识图的概念联系;解决共指问题;并提取复杂场景下的实体关系。该调查涵盖了知识细化的模型,包括知识图补全和知识融合。还系统地提出了处理知识演化的方法,包括条件知识获取、条件知识图补全和知识动态。我们提出了一些范式,以沿着数据环境、动机和架构的轴来比较这些方法之间的区别。此外,我们还提供了可访问资源的简介,可以帮助读者开发实用的知识图谱系统。调查最后讨论了未来探索的挑战和可能的方向 ...