大型语言模型 (LLM) 在自然语言理解和生成方面表现出了令人印象深刻的能力,导致它们在聊天机器人和虚拟助理等应用中得到使用。然而,现有的 LLM 框架在处理具有丰富数据结构的特定领域数据分析任务时面临局限性。此外,他们还难以灵活地满足不同的用户需求 ...
大型语言模型 (LLM) 在理解和生成文本方面表现出了卓越的能力,促使众多研究人员将其用于信息提取 (IE) 目的,包括关系提取 (RE)。尽管如此,大多数现有方法主要是为句子级关系提取(SentRE)任务而设计的,该任务通常在单个句子中包含一组有限的关系和三元组事实。此外,某些方法将关系视为集成到提示模板中的候选选择,导致处理文档级关系提取(DocRE)任务时处理效率低下和性能不佳,这需要处理分布在给定文档中的多个关系和三元组事实,提出独特的挑战 ...
大型语言模型 (LLM) 在自然语言处理方面表现出了令人印象深刻的能力。然而,它们的内部机制仍不清楚,缺乏透明度给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要 ...
大型语言模型 (LLM) 在各种任务中表现出了卓越的能力。然而,他们有时会产生幻觉,特别是在尽管拥有正确的知识但仍可能产生不真实反应的情况下。在本文中,我们提出了 TruthX,这是一种推理时间方法,通过编辑真实空间中的内部表示来得出 LLM 的真实性 ...
我们提出了一种端到端系统设计,旨在利用检索增强生成(RAG)来提高大型语言模型(LLM)针对与私有知识库相关的特定领域和时间敏感查询的事实准确性。我们的系统将 RAG 管道与上游数据集处理和下游性能评估集成在一起。为了解决 LLM 幻觉的挑战,我们使用源自 CMU 广泛资源并用教师模型注释的精选数据集对模型进行微调 ...
我们探索在信息检索的帮助下迭代修改思想链如何显着提高大型语言模型在长视野生成任务中的推理和生成能力,同时极大地减弱幻觉。特别是,所提出的方法——*检索增强思想*(RAT)——在初始零样本CoT之后,使用与任务相关查询的检索信息、当前和过去的思想步骤逐一修改每个思想步骤被生成。将RAT应用到GPT-3 ... ...
通过以自然语言指令为条件,大型语言模型 (LLM) 显示了作为通用计算机的令人印象深刻的功能。然而,任务表现在很大程度上取决于用于引导模型的提示的质量,并且大多数有效的提示都是由人类手工制作的。受经典程序合成和提示工程的人类方法的启发,我们提出自动提示工程师(APE)来自动生成和选择指令 ...
ML 社区正在快速探索促进语言模型 (LM) 并将其堆叠到解决复杂任务的管道中的技术。不幸的是,现有的 LM 管道通常使用硬编码的“提示模板”来实现,即 ...