了解安全文本的构成是自然语言处理中的一个重要问题,通常可以防止部署被认为有害和不安全的模型。一种很少被研究的安全类型是常识性的人身安全,即常识性的人身安全 ...
社交媒体上的仇恨言论大幅增长,给所有人口群体的受害者造成了严重后果。尽管人们对歧视性言论的特征和检测给予了很多关注,但大多数工作都集中在明确或公开的仇恨言论上,未能解决基于编码或间接语言的更普遍的形式。为了填补这一空白,这项工作引入了一种理论上合理的隐性仇恨言论分类法,以及一个为每条消息及其含义提供细粒度标签的基准语料库 ...
在这项工作中,我们设计了公正的提示来系统地评估大型语言模型(LLM)的心理安全性。首先,我们使用两种性格测试测试了五种不同的 LLM :短黑三人格测试(SD-3)和大五人格测试(BFI)。所有模型在 SD-3 上的得分均高于人类平均水平,表明其性格模式相对较阴暗 ...
检索增强生成 (RAG) 通过启用动态信息检索来减少生成内容中的知识差距和幻觉,显着改进了大型语言模型 (LLM)。然而,这些系统经常因复杂的推理和不同查询的一致性而出现问题。在这项工作中,我们提出了 Think-on-Graph 2 ...
现代大型语言模型 (LLM) 研究中最引人注目的发现之一是,在训练过程中扩大计算规模可以带来更好的结果。然而,很少有人关注推理过程中扩展计算的好处。本次调查重点关注这些推理时间方法 ...
面对不确定性,寻求信息的能力至关重要。在许多实际应用中,例如医疗诊断和故障排除,解决任务所需的信息最初并不是给出的,而是必须通过提出后续问题来主动寻求(例如,医生向患者询问有关其病情的更多详细信息)症状)。在这项工作中,我们介绍了思想的不确定性(UoT),这是一种增强大型语言模型的算法,使其能够通过提出有效的问题来主动寻找信息 ...
即时泄漏对 LLM 申请构成了引人注目的安全和隐私威胁。系统提示的泄露可能会损害知识产权,并成为攻击者的对抗性侦察。缺乏对即时泄漏威胁和缓解策略的系统评估,特别是对于多轮 LLM 互动 ...
基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而,在与安全相关的情况下,如果没有对人类注释者进行精确的指示,收集的数据可能会导致模型变得过于谨慎,或者以不良的方式做出响应,例如判断性的。此外,随着模型功能和使用模式的发展,可能需要添加或重新标记数据来修改安全行为,成本高昂 ...
随着大型语言模型(LLM)的发展,这些模型的序列长度不断增加,引起了人们对长上下文语言模型的极大关注。然而,对这些模型的评估主要局限于它们的能力,缺乏针对它们安全性的研究。现有的工作,例如 ManyShotJailbreak,在一定程度上证明了长上下文语言模型可能会出现安全问题 ...
逻辑推理是大型语言模型 (LLM) 的一项关键任务,使它们能够解决复杂的问题。在推理任务中,多步推理提出了特殊的挑战。基于形式逻辑理论,我们开发了一种用于演绎推理数据的自动化方法,多步演绎(MuseD) ...