huaizhe2000的文档

Representation Engineering: A Top-Down Approach to AI Transparency

在本文中，我们确定并描述了表示工程（RepE）这一新兴领域，这是一种利用认知神经科学的见解来提高人工智能系统透明度的方法。 RepE 将群体层面的表征（而不是神经元或电路）置于分析的中心，为我们提供了监测和操纵深度神经网络 (DNN) 中高级认知现象的新方法。我们提供了 RepE 技术的基线和初步分析，表明它们为提高我们对大型语言模型的理解和控制提供了简单而有效的解决方案。我们展示了这些方法如何为广泛的安全相关问题提供牵引力，包括诚实、无害、权力追求等，展示了自上而下的透明度研究的前景。我们希望这项工作能够促进对 RepE 的进一步探索，并促进人工智能系统透明度和安全性的进步 ...

0 0 0 0 2026/02/03 arXiv:2310.01405v4 huaizhe2000

On LLMs' Internal Representation of Code Correctness

尽管大型语言模型 (LLM) 对于代码生成非常有效，但它们经常输出不正确的代码。原因之一是模型输出概率往往与正确性没有很好的相关性，仅反映生成过程的最终输出。受 LLM 内部编码诸如真实性等概念的发现的启发，本文探讨了 LLM 是否同样代表代码正确性。具体来说，我们通过对比相同编程任务的正确和错误代码对之间的隐藏状态来识别 LLM 内部的正确性表示。通过对四个 LLM 进行实验，我们表明利用这种提取的正确性表示优于标准对数似然排名以及语言化模型置信度。此外，我们还探讨了如何使用这种内部正确性信号来选择更高质量的代码样本，而无需执行测试。最终，这项工作展示了如何利用内部表示来增强代码生成系统并使 LLM 更加可靠，从而提高对自动生成代码的信心 ...

0 0 0 0 2026/02/02 arXiv:2512.07404v3 huaizhe2000

Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation

在这项工作中，我们探索不确定性估计作为 LLM 生成代码正确性的代理。为此，我们将自然语言生成中的两种最先进的技术（一种基于熵，另一种基于互信息）应用到代码生成领域。考虑到代码的独特语义属性，我们引入了修改，包括基于符号执行的语义等价检查。我们的研究结果表明，通过这些技术计算的不确定性与正确性之间存在很强的相关性，突出了不确定性估计在质量评估中的潜力。此外，我们提出了基于熵的方法的简化版本，该方法假设 LLM 的响应均匀分布，证明了可比的有效性。使用这些技术，我们制定了一种弃权政策，可防止模型在不确定性较高时进行预测，从而将错误输出减少到接近零。我们对 LiveCodeBench 的评估表明，我们的方法明显优于仅依赖于 LLM 报告的对数概率的基线 ...

0 0 0 0 2026/02/02 arXiv:2502.11620v3 huaizhe2000

Beyond Functional Correctness: Exploring Hallucinations in LLM-Generated Code

大型语言模型 (LLM) 的兴起极大地推进了软件工程任务的各种应用，特别是在代码生成方面。尽管表现很有前景，但 LLM 很容易产生幻觉，这意味着 LLM 可能会产生偏离用户意图、表现出内部不一致或与现实世界知识不一致的输出，从而使得 LLM 在广泛的应用中的部署存在潜在风险。现有的工作主要集中于研究自然语言生成（NLG）领域的幻觉，在全面理解代码生成背景下幻觉的类型、原因和影响方面存在差距。为了弥补这一差距，我们对 LLM 生成的代码进行了主题分析，以总结和分类幻觉及其原因和影响。我们的研究建立了一个全面的代码幻觉分类法，包括 3 个主要类别和 12 个具体类别。此外，我们系统地分析了幻觉的分布，探索不同 LLM 和基准之间的差异。此外，我们对各种幻觉的原因和影响进行了深入分析，旨在为缓解幻觉提供有价值的见解。最后，为了以轻量级的方式增强LLM生成代码的正确性和可靠性，我们通过提示增强技术探索免训练的幻觉缓解方法。我们相信，我们的研究结果将为未来关于代码幻觉评估和缓解的研究提供启示，最终为未来建立更有效、更可靠的代码 LLM 铺平道路。复制包可从此 https URL 获取 ...

0 0 0 0 2026/01/29 arXiv:2404.00971v3 huaizhe2000

A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI

模型幻觉是大型语言模型 (LLM) 面临的最严峻的挑战之一，尤其是在高风险的代码智能任务中。随着 LLM 越来越多地融入软件工程任务，理解和减轻代码中的幻觉变得至关重要。在这项调查中，我们从四个关键角度对面向代码的 LLM 中的幻觉现象进行了系统回顾。首先，我们首先调查了 60 篇论文，以定义代码背景下的幻觉，并总结其主要原因，例如数据噪声、暴露偏差和语义基础不足，同时还追踪自然语言处理 (NLP) 和软件工程社区文献的最新趋势。其次，我们回顾了更广泛范围内的模型幻觉调查，并总结了代表性的幻觉缓解策略，例如知识增强生成、受限解码和后期编辑。第三，我们回顾了针对代码智能的方法，并强调了加剧幻觉的代码特定挑战，包括语法敏感性、严格的类型系统和对外部库的依赖。同时，我们分析了如何利用新兴的代码智能任务（例如程序分析、符号执行和单元测试）来检测和减轻幻觉。第四，我们总结了当前的评估基准，从静态指标到动态检查，例如编译和执行的正确性，并强调面向幻觉的基准的必要性 ...

0 0 1 2 2026/01/29 arXiv:2511.00776v1 huaizhe2000

Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus

大型语言模型（LLM）因其在不同领域的令人印象深刻的表现而广受欢迎。然而， LLM 很容易产生不真实或无意义的输出，这些输出在许多现实应用中无法满足用户的期望。现有的检测 LLM 幻觉的工作要么依赖外部知识进行参考检索，要么需要对 LLM 的多个响应进行采样以进行一致性验证，使得这些方法成本高昂且效率低下。在本文中，我们提出了一种新颖的无参考、基于不确定性的方法来检测 LLM 的幻觉。我们的方法从三个方面模仿人类在事实性检查中的关注：1）关注给定文本中信息最丰富、最重要的关键词； 2）关注历史背景下不可靠的 Token ，这可能会导致一连串的幻觉； 3）关注 Token 属性，例如 Token 类型和 Token 频率。相关数据集的实验结果证明了我们提出的方法的有效性，该方法在所有评估指标上都实现了最先进的性能，并且不需要额外的信息 ...

0 0 0 0 2026/01/23 arXiv:2311.13230v1 huaizhe2000

Hallucination Detection in LLMs Using Spectral Features of Attention Maps

大型语言模型（LLM）在各种任务中表现出了卓越的性能，但仍然容易产生幻觉。检测幻觉对于安全关键型应用至关重要，最近的方法利用注意力图特性来实现这一目的，尽管其有效性仍然有限。在这项工作中，我们通过将注意力图解释为图结构的邻接矩阵来研究注意力图的谱特征。我们提出了 $\text{LapEigvals}$ 方法，该方法利用从注意力图导出的拉普拉斯矩阵的前 $k$ 特征值作为幻觉检测探针的输入。实证评估表明，我们的方法在基于注意力的方法中实现了最先进的幻觉检测性能。广泛的消融研究进一步强调了 $\text{LapEigvals}$ 的鲁棒性和泛化性，为幻觉检测领域的未来进步铺平了道路 ...

0 0 0 0 2026/01/21 arXiv:2502.17598v2 huaizhe2000

HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs

大型语言模型（LLM）最近引起了广泛的关注，因为它们擅长针对多个领域的给定提示生成创新响应。然而， LLM 经常受到幻觉的固有限制，并在保持结构良好和连贯的反应的同时产生不正确的信息。在这项工作中，我们假设幻觉源于 LLM 的内部动力。我们的观察表明，在段落生成过程中， LLM 往往会在回答的微妙部分偏离事实准确性，最终转向错误信息。这种现象与人类认知相似，个人可能会在保持逻辑连贯性的同时产生幻觉，在其言语的较小片段中嵌入不确定性。为了进一步研究这一点，我们引入了一种创新方法 HalluShift，旨在分析内部状态空间的分布变化和 LLM 生成的响应的 Token 概率。与各种基准数据集的现有基线相比，我们的方法获得了卓越的性能。我们的代码库可通过此 https URL 获取 ...

0 0 0 0 2026/01/20 arXiv:2504.09482v1 huaizhe2000

Enhancing Uncertainty Modeling with Semantic Graph for Hallucination Detection

大型语言模型（LLM）很容易产生非事实或不忠实陈述的幻觉，从而破坏了在现实场景中的应用。最近的研究集中在基于不确定性的幻觉检测，它利用LLM的输出概率进行不确定性计算，并且不依赖于外部知识或LLM的频繁采样。然而，大多数方法仅仅考虑每个独立标记的不确定性，而标记和句子之间复杂的语义关系没有得到很好的研究，这限制了跨越段落中多个标记和句子的幻觉的检测。在本文中，我们提出了一种利用语义图增强不确定性建模以进行幻觉检测的方法。具体来说，我们首先构建一个语义图，它可以很好地捕获实体标记和句子之间的关系。然后，我们结合两个实体之间的关系进行不确定性传播，以增强句子级幻觉检测。鉴于幻觉是由于句子之间的冲突而产生的，我们进一步提出了一种基于图的不确定性校准方法，该方法将句子与其邻居在语义图中的矛盾概率相结合进行不确定性计算。对两个数据集的大量实验显示了我们提出的方法的巨大优势。特别是，我们在通道级幻觉检测方面取得了 19.78% 的显着改进 ...

0 0 0 0 2026/01/19 arXiv:2501.02020v3 huaizhe2000

Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art

自治系统很快将无处不在，涵盖制造业、农业、医疗保健、娱乐和其他行业。大多数这些系统都是使用模块化子组件开发的，用于手工设计或基于学习的决策、规划和控制。虽然这些方法在专门设计的情况下表现良好，但在测试时无疑会出现的分布外场景中，它们的表现尤其糟糕。使用令人印象深刻的大数据集进行多项任务训练的基础模型的兴起，使研究人员相信这些模型可能提供现有规划者所缺少的“常识”推理，从而弥合算法开发和部署之间的差距。虽然研究人员在将基础模型部署到决策任务方面显示出了有希望的结果，但众所周知，这些模型会产生幻觉并生成听起来合理但实际上很糟糕的决策。我们认为，有必要退后一步，同时设计可以量化模型决策确定性的系统，并检测模型何时可能出现幻觉。在这项工作中，我们讨论了决策任务基础模型的当前用例，通过示例提供了幻觉的一般定义，讨论了幻觉检测和缓解的现有方法，重点关注决策问题，提出了指南，并探索了这个令人兴奋的领域的进一步研究领域 ...

0 0 0 0 2026/01/14 arXiv:2403.16527v2 huaizhe2000