- 名称
- Social Bias Probing: Fairness Benchmarking for Language Models
- 描述
虽然社会偏见对语言模型的影响已经被认识到,但先前的偏见评估方法仅限于小数据集的二元关联测试,限制了我们对偏见复杂性的理解。本文提出了一种新的框架,通过评估不同的待遇来探讨社会偏见的语言模型,其中包括根据个人与敏感人口群体的隶属关系对他们进行不同的对待。我们策划了 SoFa,这是一个大型基准测试,旨在解决现有公平性集合的局限性 ...
虽然社会偏见对语言模型的影响已经被认识到,但先前的偏见评估方法仅限于小数据集的二元关联测试,限制了我们对偏见复杂性的理解。本文提出了一种新的框架,通过评估不同的待遇来探讨社会偏见的语言模型,其中包括根据个人与敏感人口群体的隶属关系对他们进行不同的对待。我们策划了 SoFa,这是一个大型基准测试,旨在解决现有公平性集合的局限性 ...