性别偏见研究在揭示大型语言模型中的不良行为、揭露与职业和情感相关的严重性别刻板印象方面发挥着关键作用。先前工作中的一个关键观察结果是,由于训练数据中存在的性别相关性,模型强化了刻板印象。在本文中,我们重点关注训练数据的影响尚不清楚的偏见,并解决以下问题:语言模型在非刻板印象环境中是否仍然表现出性别偏见?为此,我们引入了 UnStereoEval (USE),这是一个专为调查无刻板印象场景中的性别偏见而定制的新颖框架 ...
性别偏见研究在揭示大型语言模型中的不良行为、揭露与职业和情感相关的严重性别刻板印象方面发挥着关键作用。先前工作中的一个关键观察结果是,由于训练数据中存在的性别相关性,模型强化了刻板印象。在本文中,我们重点关注训练数据的影响尚不清楚的偏见,并解决以下问题:语言模型在非刻板印象环境中是否仍然表现出性别偏见?为此,我们引入了 UnStereoEval (USE),这是一个专为调查无刻板印象场景中的性别偏见而定制的新颖框架 ...