cocoyo的文档

cocoyo

个性签名 ...

Social Bias Probing: Fairness Benchmarking for Language Models

虽然社会偏见对语言模型的影响已经被认识到，但先前的偏见评估方法仅限于小数据集的二元关联测试，限制了我们对偏见复杂性的理解。本文提出了一种新的框架，通过评估不同的待遇来探讨社会偏见的语言模型，其中包括根据个人与敏感人口群体的隶属关系对他们进行不同的对待。我们策划了 SoFa，这是一个大型基准测试，旨在解决现有公平性集合的局限性 ...

0 0 0 0 2024/12/09 arXiv:2311.09090v4 cocoyo

SafeText: A Benchmark for Exploring Physical Safety in Language Models

了解安全文本的构成是自然语言处理中的一个重要问题，通常可以防止部署被认为有害和不安全的模型。一种很少被研究的安全类型是常识性的人身安全，即常识性的人身安全 ...

0 0 0 0 2024/12/09 arXiv:2210.10045v1 cocoyo

Latent Hatred: A Benchmark for Understanding Implicit Hate Speech

社交媒体上的仇恨言论大幅增长，给所有人口群体的受害者造成了严重后果。尽管人们对歧视性言论的特征和检测给予了很多关注，但大多数工作都集中在明确或公开的仇恨言论上，未能解决基于编码或间接语言的更普遍的形式。为了填补这一空白，这项工作引入了一种理论上合理的隐性仇恨言论分类法，以及一个为每条消息及其含义提供细粒度标签的基准语料库 ...

0 0 0 0 2024/12/09 arXiv:2109.05322v1 cocoyo

Evaluating Psychological Safety of Large Language Models

在这项工作中，我们设计了公正的提示来系统地评估大型语言模型（LLM）的心理安全性。首先，我们使用两种性格测试测试了五种不同的 LLM ：短黑三人格测试（SD-3）和大五人格测试（BFI）。所有模型在 SD-3 上的得分均高于人类平均水平，表明其性格模式相对较阴暗 ...

0 0 0 0 2024/12/09 arXiv:2212.10529v3 cocoyo

Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation

检索增强生成 (RAG) 通过启用动态信息检索来减少生成内容中的知识差距和幻觉，显着改进了大型语言模型 (LLM)。然而，这些系统经常因复杂的推理和不同查询的一致性而出现问题。在这项工作中，我们提出了 Think-on-Graph 2 ...

0 0 0 0 2024/12/05 arXiv:2407.10805v5 cocoyo

From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

现代大型语言模型 (LLM) 研究中最引人注目的发现之一是，在训练过程中扩大计算规模可以带来更好的结果。然而，很少有人关注推理过程中扩展计算的好处。本次调查重点关注这些推理时间方法 ...

0 0 0 0 2024/11/28 arXiv:2406.16838v2 cocoyo

Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models

面对不确定性，寻求信息的能力至关重要。在许多实际应用中，例如医疗诊断和故障排除，解决任务所需的信息最初并不是给出的，而是必须通过提出后续问题来主动寻求（例如，医生向患者询问有关其病情的更多详细信息）症状）。在这项工作中，我们介绍了思想的不确定性（UoT），这是一种增强大型语言模型的算法，使其能够通过提出有效的问题来主动寻找信息 ...

0 0 0 0 2024/11/19 arXiv:2402.03271v3 cocoyo

Prompt Leakage effect and defense strategies for multi-turn LLM interactions

即时泄漏对 LLM 申请构成了引人注目的安全和隐私威胁。系统提示的泄露可能会损害知识产权，并成为攻击者的对抗性侦察。缺乏对即时泄漏威胁和缓解策略的系统评估，特别是对于多轮 LLM 互动 ...

0 0 0 0 2024/11/19 arXiv:2404.16251v3 cocoyo

Rule Based Rewards for Language Model Safety

基于强化学习的大语言模型 (LLM) 根据人类偏好进行的微调已被证明可以增强其能力和安全行为。然而，在与安全相关的情况下，如果没有对人类注释者进行精确的指示，收集的数据可能会导致模型变得过于谨慎，或者以不良的方式做出响应，例如判断性的。此外，随着模型功能和使用模式的发展，可能需要添加或重新标记数据来修改安全行为，成本高昂 ...

0 0 0 0 2024/11/18 arXiv:2411.01111v1 cocoyo

LongSafetyBench: Long-Context LLMs Struggle with Safety Issues

随着大型语言模型（LLM）的发展，这些模型的序列长度不断增加，引起了人们对长上下文语言模型的极大关注。然而，对这些模型的评估主要局限于它们的能力，缺乏针对它们安全性的研究。现有的工作，例如 ManyShotJailbreak，在一定程度上证明了长上下文语言模型可能会出现安全问题 ...

0 0 0 0 2024/11/17 arXiv:2411.06899v1 cocoyo