LLM 越来越多地集成到应用程序中,引入了新的安全风险,特别是所谓的提示软件——恶意设计的提示,旨在操纵 LLM 来危害这些应用程序的 CIA 三合会。虽然之前的研究警告 LLM 支持的应用程序的威胁格局可能会发生变化,但 Promptware 带来的风险通常被认为很低。在本文中,我们调查了 Promptware 对 Gemini 支持的助手(Web 应用程序、移动应用程序和 Google Assistant)用户造成的风险。我们提出了一种新颖的威胁分析和风险评估 (TARA) 框架来评估最终用户的 Promptware 风险。我们的分析重点是提示软件的一种新变体,称为“目标提示软件攻击”,它通过电子邮件、日历邀请和共享文档等常见用户交互来利用间接提示注入。我们演示了针对 Gemini 支持的助手的 14 种攻击场景,涵盖五个已识别的威胁类别:短期上下文中毒、永久内存中毒、工具滥用、自动代理调用和自动应用程序调用。这些攻击突出了数字和物理后果,包括垃圾邮件、网络钓鱼、虚假信息活动、数据泄露、未经批准的用户视频流以及家庭自动化设备的控制。我们揭示了 Promptware 在设备上进行横向移动、逃离 LLM 支持的应用程序边界、使用设备应用程序触发恶意操作的潜力。我们的 TARA 显示,所分析的威胁中有 73% 给最终用户带来了高危风险。我们讨论缓解措施并重新评估风险(针对已部署的缓解措施),并表明风险可以显着降低至极低至中度。我们向谷歌披露了我们的发现,谷歌部署了专门的缓解措施 ...
尽管大型语言模型容易产生幻觉和不准确的内容,但它已成为问答应用程序不可或缺的一部分。查询知识图谱以减少LLM中的幻觉,解决了知识图谱知识覆盖不完整的挑战。另一方面,通过信息提取和知识图补全来更新知识图面临着知识更新错位问题。在这项工作中,我们引入了一个协作增强框架CogMG,利用知识图来解决LLM在QA场景中的局限性,明确针对知识覆盖不完整和知识更新不一致的问题。 LLM 识别并分解知识图谱中不存在的所需知识三元组,丰富它们并使更新与现实世界的需求保持一致。我们通过代理框架内的监督微调 LLM 展示了这种方法的有效性,显示出在减少幻觉和提高 QA 响应中的事实准确性方面的显着改进。我们的代码和视频是公开的 ...
故障模式和影响分析 (FMEA) 是减轻潜在故障的重要工具,特别是在新产品的试产阶段。然而,其有效性往往受到 FMEA 工具推理能力的限制,这些工具通常采用表格结构。与此同时,大型语言模型(LLM)为高级自然语言处理任务提供了新的前景。然而, LLM 在需要事实知识的任务中面临挑战,检索增强生成(RAG)方法旨在填补这一空白。 RAG 从非参数数据存储中检索信息并使用语言模型生成响应。基于这个概念,我们建议使用知识图(KG)来增强非参数数据存储。通过将 KG 集成到 RAG 框架中,我们的目标是利用 FMEA 数据的分析和语义问答功能。本文通过提出集合论标准化和 FMEA 数据模式、从 FMEA-KG 创建向量嵌入的算法以及 KG 增强的 RAG 框架来做出贡献。我们的方法通过用户体验设计研究进行了验证,并且我们测量了上下文检索召回的精度和性能 ...
大型语言模型(LLM)在自然语言处理领域表现出了令人印象深刻的影响,但它们仍然面临着完整性、及时性、忠实性和适应性等问题。虽然最近的工作重点是将 LLM 与外部知识源联系起来,但知识库(KB)的整合仍然没有得到充分研究,并面临一些挑战。在本文中,我们介绍了 KnowledGPT,这是一个将 LLM 与各种知识库联系起来的综合框架,有助于知识的检索和存储。检索过程采用思维提示程序,生成代码格式的知识库搜索语言,并带有预定义的知识库操作函数。除了检索之外,KnowledGPT 还提供将知识存储在个性化知识库中的功能,以满足个人用户的需求。通过大量的实验,我们表明,通过将 LLM 与 KB 相结合,与普通的 LLM 相比,KnowledGPT 可以正确回答更广泛的需要世界知识的问题,利用广为人知的 KB 中存在的知识并提取到个性化的 KB 中 ...
我们提出了知识链(CoK),这是一种新颖的框架,通过动态合并来自异构源的基础信息来增强大型语言模型(LLM)。它会产生更多的事实依据并减少一代人的幻觉。具体来说,CoK由三个阶段组成:推理准备、动态知识适应和答案巩固。给定一个知识密集型问题,CoK 首先准备几个初步的理由和答案,同时确定相关的知识领域。如果样本中的答案没有达成多数共识,CoK 会通过调整已识别领域的知识来逐步纠正基本原理。这些修正后的基本原理似乎可以为最终答案巩固提供更好的基础。与之前主要使用非结构化数据的研究不同,CoK 还利用维基数据和表格等结构化知识源来提供更可靠的事实信息。为了在动态知识适应阶段访问非结构化和结构化知识源,我们提出了一种自适应查询生成器,它允许生成各种类型查询语言的查询,包括SPARQL、SQL和自然句子。此外,为了最小化原理之间的错误传播,CoK 使用先前已校正的原理来逐步校正原理,以生成并校正后续的原理。大量实验表明,CoK 持续提高了 LLM 在不同领域的知识密集型任务上的表现 ...
知识图(KG)推理是一项具有挑战性的任务,需要深入理解实体之间的复杂关系及其关系的底层逻辑。当前的方法依赖于学习几何图形将实体嵌入向量空间中以进行逻辑查询操作,但它们在复杂查询和数据集特定表示方面的性能不佳。在本文中,我们提出了一种新颖的解耦方法,即语言引导的知识图谱抽象推理(LARK),它将复杂的知识图谱推理制定为上下文知识图谱搜索和逻辑查询推理的组合,以分别利用图提取算法和大型语言模型(LLM)的优势。我们的实验表明,所提出的方法在跨多个逻辑查询构造的标准基准数据集上优于最先进的知识图谱推理方法,并且对于较高复杂性的查询具有显着的性能增益。此外,我们表明,我们的方法的性能随着底层 LLM 规模的增加而成比例地提高,从而能够集成 LLM 的最新进展以进行 KG 的逻辑推理。我们的工作为解决复杂 KG 推理的挑战提供了新的方向,并为该领域的未来研究铺平了道路 ...
大规模预训练语言模型的出现彻底改变了各个人工智能研究领域。基于 Transformers 的大型语言模型 (LLM) 已逐渐取代 CNN 和 RNN,以统一计算机视觉和自然语言处理领域。与图像、视频或文本等独立数据样本相比,图通常包含丰富的结构和关系信息。同时,语言,尤其是自然语言,作为最具表现力的媒介之一,擅长描述复杂的结构。然而,现有的将图问题纳入生成语言建模框架的工作仍然非常有限。考虑到 LLM 的重要性日益凸显,探索 LLM 是否也可以取代 GNN 作为图的基础模型变得至关重要。在本文中,我们提出了 InstructGLM(指令微调图形语言模型),具有基于自然语言指令的高度可扩展的提示。我们使用自然语言来描述图的多尺度几何结构,然后指令微调 LLM 来执行图任务,从而实现生成图学习。我们的方法超越了 ogbn-arxiv、Cora 和 PubMed 数据集上的所有 GNN 基线,强调了其有效性,并揭示了生成式 LLM 作为图机器学习的新基础模型。我们的代码在此 https URL 上开源 ...
大型语言模型(LLM)在各种语言建模任务中表现出了卓越的泛化能力和卓越的性能。然而,它们在精确捕获和返回基础知识方面仍然表现出固有的局限性。虽然现有的工作已经探索利用知识图谱(KG)通过联合训练和定制模型架构来增强语言建模,但由于参数数量大和计算成本高,将其应用于 LLM 是有问题的。因此,如何使用基础知识(例如检索增强生成)来增强预训练的 LLM 仍然是一个悬而未决的问题。在这项工作中,我们提出了图神经提示(GNP),这是一种新颖的即插即用方法,可以帮助预先训练的 LLM 从知识图谱中学习有用的知识。 GNP 包含各种设计,包括标准图神经网络编码器、跨模态池模块、域投影仪和自监督链接预测目标。对多个数据集的广泛实验证明了 GNP 在不同 LLM 规模和设置的常识和生物医学推理任务上的优越性。代码可从此 https URL 获取 ...
对话系统可以利用大量预先训练的语言模型和知识来生成流畅且信息丰富的响应。然而,这些模型仍然容易产生输入源不支持的幻觉响应,这极大地阻碍了它们的应用。外部知识和对话背景之间的异质性挑战了表征学习和源整合,并进一步导致了不忠实。为了应对这一挑战并生成更忠实的响应,本文利用知识图谱 (KG) 中链接实体和关系谓词的表示形式提出了 RHO ($\rho$)。我们提出(1)局部知识基础,将文本嵌入与相应的知识图谱嵌入相结合; (2)全局知识基础,通过注意力机制使RHO具备多跳推理能力。此外,我们还设计了一种基于 KG 子图遍历的响应重排序技术,以实现更好的对话推理。 OpenDialKG 上的实验结果表明,我们的方法在自动评估和人工评估方面都显着优于最先进的方法,特别是在减少幻觉方面(FeQA 为 17.54%) ...
在过去的几十年里,推荐系统取得了显着的进步并得到了广泛的应用。然而,大多数传统的推荐方法都是针对特定任务的,因此缺乏有效的泛化能力。最近,ChatGPT 的出现通过增强会话模型的能力,显着推进了 NLP 任务。尽管如此,ChatGPT 在推荐领域的应用尚未得到深入研究。在本文中,我们采用 ChatGPT 作为通用推荐模型,以探索其将从大规模语料库获取的广泛语言和世界知识转移到推荐场景的潜力。具体来说,我们设计了一组提示并评估 ChatGPT 在五个推荐场景上的性能。与传统的推荐方法不同,我们在整个评估过程中不对ChatGPT进行微调,仅依靠提示本身将推荐任务转换为自然语言任务。此外,我们探索使用few-shot提示来注入包含用户潜在兴趣的交互信息,以帮助ChatGPT更好地了解用户的需求和兴趣。 Amazon Beauty 数据集上的综合实验结果表明,ChatGPT 在某些任务中取得了可喜的结果,并且能够在其他任务中达到基线水平。我们对两个以可解释性为导向的任务进行人工评估,以更准确地评估不同模型生成的内容的质量。人工评估表明ChatGPT能够真正理解所提供的信息并产生更清晰、更合理的结果。我们希望我们的研究能够激励研究人员进一步探索像 ChatGPT 这样的语言模型在提高推荐性能方面的潜力,并为推荐系统领域的进步做出贡献 ...