richardson的文档

richardson

个性签名 ...

Mechanisms of non-factual hallucinations in language models

最先进的语言模型（LM）有时会产生与世界知识不一致的非事实幻觉。尽管在检测和减轻幻觉方面做出了广泛的努力，但了解其内部机制仍然难以捉摸。我们的研究调查了幻觉的机制原因，特别是非事实幻觉，其中机器学习错误地预测了对象属性以响应主题关系查询 ...

0 0 0 0 2024/06/10 arXiv:2403.18167v1 richardson

Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics

我们基于维基百科的中立观点（NPOV）原则探索了一种处理基于 LLM 的聊天机器人中有争议主题的策略：承认不存在单一真实答案并提出多种观点。我们将其描述为检索增强生成，其中从知识库中检索观点，而 LLM 的任务是从给定的观点生成流畅且忠实的响应。作为起点，我们使用确定性检索系统，然后重点关注这种文本生成方法中出现的常见 LLM 失败模式，即幻觉和覆盖错误 ...

0 0 0 0 2024/06/10 arXiv:2403.08904v1 richardson

Exploring and Evaluating Hallucinations in LLM-Powered Code Generation

大型语言模型（LLM）的兴起极大地推进了软件工程任务的应用，特别是在代码生成方面。虽然LLM的性能前景良好，但LLM很容易产生幻觉，这意味着LLM可能会产生消失的用户意图的输出，表现出内部不一致，或与事实知识不一致，使得LLM在广泛的应用中的部署存在潜在的风险。现有的工作主要集中在将幻觉投入到自然语言生成（NLG）领域，在理解代码生成背景下的幻觉类型和程度方面存在差异... ...

0 0 0 0 2024/10/14 arXiv:2404.00971v2 richardson

Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey

自然语言生成（NLG）中的幻觉就像房间里的大象，显而易见但经常被忽视，直到最近的成就显着提高了生成文本的流畅性和语法准确性。对于大型语言模型（LLM），幻觉可能发生在各种下游任务和随意对话中，需要准确的评估以增强可靠性和安全性。然而，目前对于幻觉评估的研究差异很大，人们仍然很难梳理和选择最合适的评估方法 ...

0 0 0 0 2024/06/10 arXiv:2404.12041v1 richardson

A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation

在大规模预训练语言模型的支持下，现有的对话系统在进行流畅、自然的对话方面表现出了令人印象深刻的性能。然而，他们仍然受到幻觉问题的困扰，导致生成的响应出现不可预测的事实错误。最近，基于知识的对话生成模型，有意调用外部知识资源来提供更多信息的响应，也被证明可以有效减少幻觉 ...

0 0 0 0 2024/06/10 arXiv:2404.03491v1 richardson

Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization

尽管大型视觉语言模型（LVLM）在理解多模态数据方面表现出了卓越的能力，但它们总是会产生幻觉，导致生成的文本和相应图像之间脱节。几乎所有当前的视觉对比解码方法都试图通过引入视觉不确定性信息来减轻这些幻觉，这些信息适当地扩大了幻觉和目标幻觉之间的对比逻辑差距。然而，由于全局视觉不确定性的不可控性，他们很难精确地诱导幻觉标记，这严重限制了它们减轻幻觉的有效性，甚至可能导致不良幻觉的产生 ...

0 0 0 0 2024/06/10 arXiv:2405.15356v1 richardson

ANAH: Analytical Annotation of Hallucinations in Large Language Models

（llm）的“ $ \ textit {幻觉} $” 问题对于其广泛应用至关重要。对幻觉进行全面、细致的测量是治理这一问题的第一个关键步骤 ...

0 0 0 0 2025/03/01 arXiv:2405.20315v1 richardson

Utilizing GPT to Enhance Text Summarization: A Strategy to Minimize Hallucinations

在本研究中，我们使用 DistilBERT 模型来生成提取摘要，并使用 T5 模型来生成抽象摘要。此外，我们还通过结合 DistilBERT 和 T5 模型来生成混合摘要。我们研究的核心是实施基于 GPT 的精炼流程，以最大限度地减少人工智能生成的摘要中出现的幻觉这一常见问题 ...

0 0 0 0 2024/06/10 arXiv:2405.04039v1 richardson

Confabulation: The Surprising Value of Large Language Model Hallucinations

本文提出了对大语言模型（LLM）幻觉或“虚构”的系统辩护，将其视为潜在资源而不是绝对负面的陷阱。标准观点是，虚构本质上是有问题的，人工智能研究应该消除这个缺陷。在本文中，我们论证并实证证明了 LLM 虚构的可测量语义特征反映了人类利用增加的叙事性作为意义建构和沟通的认知资源的倾向 ...

0 0 0 0 2024/06/10 arXiv:2406.04175v1 richardson

Prompt Engineering a Prompt Engineer

快速工程对于优化大型语言模型在定制任务上的性能来说是一项具有挑战性但又至关重要的任务。它需要复杂的推理来检查模型的错误，假设当前提示中遗漏或误导的内容，并清晰地传达任务。虽然最近的研究表明大型语言模型可以通过元提示来执行自动提示工程，但我们认为，由于元提示中对复杂推理的指导不足，它们的潜力是有限的 ...

0 0 0 0 2024/04/07 arXiv:2311.05661v2 richardson