大型语言模型 (LLM) 已被证明在各种句法、话语和推理任务中表现良好。虽然 LLM 越来越多地以多种形式部署,包括与人类互动的对话代理,但我们缺乏一个坚实的基准来衡量 LLM 对 \textit{social} 语言的理解程度。在这里,我们引入了一个新的理论驱动基准 SocKET,它包含 58 个测试社会知识的 NLP 任务,我们将其分为五类:幽默和讽刺、攻击性、情绪和情感以及可信度 ...
本文重新审视了 NLP 领域中分布外(OOD)鲁棒性的研究。我们发现,以往研究中的分布偏移设置通常缺乏足够的挑战,阻碍了 OOD 稳健性的准确评估。为了解决这些问题,我们提出了一个基准构建协议,以确保明显的差异化和具有挑战性的分布变化 ...
虽然大型语言模型 (LLM) 已表现出卓越的多任务处理能力,但通常需要在下游、特定领域的数据集上对这些模型进行微调,以便与未经微调的模型相比,在测试集上产生卓越的性能。然而,微调对 LLM 泛化能力的综合影响尚不完全清楚。本文深入探讨了原始的、未经修改的 LLM 及其微调变体之间的差异 ...
无监督跨域图像检索(UCIR)旨在检索跨不同域共享同一类别的图像,而不依赖于标记数据。先前的方法通常将 UCIR 问题分解为两个不同的任务:域内表示学习和跨域特征对齐。然而,这些分离的策略忽视了这些任务之间的潜在协同作用 ...
盲脸恢复通常依赖于面部先验,例如面部几何先验或参考先验,来恢复真实且忠实的细节。然而,质量非常低的输入无法提供准确的几何先验,而高质量的参考也无法访问,从而限制了其在现实场景中的适用性。在这项工作中,我们提出了 GFP-GAN,它利用封装在预训练人脸 GAN 中的丰富多样的先验来进行盲脸恢复 ...