在这项工作中,我们设计了公正的提示来系统地评估大型语言模型(LLM)的心理安全性。首先,我们使用两种性格测试测试了五种不同的 LLM :短黑三人格测试(SD-3)和大五人格测试(BFI)。所有模型在 SD-3 上的得分均高于人类平均水平,表明其性格模式相对较阴暗 ...

0 0 0 0 2024/12/09 arXiv:2212.10529v3 cocoyo

检索增强生成 (RAG) 通过启用动态信息检索来减少生成内容中的知识差距和幻觉,显着改进了大型语言模型 (LLM)。然而,这些系统经常因复杂的推理和不同查询的一致性而出现问题。在这项工作中,我们提出了 Think-on-Graph 2 ...

0 0 0 0 2024/12/05 arXiv:2407.10805v5 cocoyo

现代大型语言模型 (LLM) 研究中最引人注目的发现之一是,在训练过程中扩大计算规模可以带来更好的结果。然而,很少有人关注推理过程中扩展计算的好处。本次调查重点关注这些推理时间方法 ...

0 0 0 0 2024/11/28 arXiv:2406.16838v2 cocoyo

面对不确定性,寻求信息的能力至关重要。在许多实际应用中,例如医疗诊断和故障排除,解决任务所需的信息最初并不是给出的,而是必须通过提出后续问题来主动寻求(例如,医生向患者询问有关其病情的更多详细信息)症状)。在这项工作中,我们介绍了思想的不确定性(UoT),这是一种增强大型语言模型的算法,使其能够通过提出有效的问题来主动寻找信息 ...

0 0 0 0 2024/11/19 arXiv:2402.03271v3 cocoyo

即时泄漏对 LLM 申请构成了引人注目的安全和隐私威胁。系统提示的泄露可能会损害知识产权,并成为攻击者的对抗性侦察。缺乏对即时泄漏威胁和缓解策略的系统评估,特别是对于多轮 LLM 互动 ...

0 0 0 0 2024/11/19 arXiv:2404.16251v3 cocoyo

基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而,在与安全相关的情况下,如果没有对人类注释者进行精确的指示,收集的数据可能会导致模型变得过于谨慎,或者以不良的方式做出响应,例如判断性的。此外,随着模型功能和使用模式的发展,可能需要添加或重新标记数据来修改安全行为,成本高昂 ...

0 0 0 0 2024/11/18 arXiv:2411.01111v1 cocoyo

随着大型语言模型(LLM)的发展,这些模型的序列长度不断增加,引起了人们对长上下文语言模型的极大关注。然而,对这些模型的评估主要局限于它们的能力,缺乏针对它们安全性的研究。现有的工作,例如 ManyShotJailbreak,在一定程度上证明了长上下文语言模型可能会出现安全问题 ...

0 0 0 0 2024/11/17 arXiv:2411.06899v1 cocoyo

逻辑推理是大型语言模型 (LLM) 的一项关键任务,使它们能够解决复杂的问题。在推理任务中,多步推理提出了特殊的挑战。基于形式逻辑理论,我们开发了一种用于演绎推理数据的自动化方法,多步演绎(MuseD) ...

0 0 0 0 2024/11/15 arXiv:2410.09528v2 cocoyo

大型语言模型 (LLM) 的偏好调整依赖于高质量的人类偏好数据,而收集这些数据通常既昂贵又耗时。虽然现有方法可以使用经过训练的奖励模型或专有模型作为偏好注释的判断者,但它们具有显着的缺点:训练奖励模型仍然依赖于初始人类数据,并且使用专有模型会施加许可限制,从而抑制商业使用。在本文中,我们介绍了定制密度比(CDR),这是一种无需训练且高效的方法,利用现成的 LLM 进行偏好数据注释 ...

0 0 0 0 2024/11/15 arXiv:2411.02481v2 cocoyo

自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...

0 0 0 0 2024/11/15 arXiv:2411.04109v2 cocoyo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)