大型语言模型评估调查

Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang,
Philip S. Yu, , Qiang Yang, , and Xing Xie Y. Chang, X. Wang, Y. Wu and Y. Chang are with the School of Artificial Intelligence, Jilin University, Changchun, China. The first two authors contributed equally. J. Wang, X. Yi, and X. Xie are with Microsoft Research, Beijing, China. K. Zhu is with Institute of Automation, CAS, Beijing, China. H. Chen is with Carnegie Mellon University, PA, USA. L. Yang, C. Wang, and Y. Zhang are with Westlake University, Hangzhou, China. Y. Wang and W. Ye are with Peking University, Beijing, China. P. Yu is with the University of Illinois at Chicago, IL, USA. Q. Yang is with Hong Kong University of Science and Technology, Kowloon, Hong Kong. Correspondence to: Yuan Wu (yuanwu@jlu.edu.cn) and Jindong Wang (jindong.wang@microsoft.com).Manuscript received April 19, 2005; revised August 26, 2015.

摘要

大型语言模型（大语言模型）由于其在各种应用中前所未有的性能而在学术界和工业界越来越受欢迎。随着大语言模型在研究和日常使用中继续发挥重要作用，它们的评估变得越来越重要，不仅在任务层面，而且在社会层面，以便更好地了解其潜在风险。在过去的几年里，人们从不同的角度对大语言模型进行了巨大的研究。本文对大语言模型的这些评估方法进行了全面的回顾，重点关注三个关键维度：评估什么、评估地点和如何评估。首先，我们从评估任务的角度进行概述，涵盖一般自然语言处理任务、推理、医学用途、伦理、教育、自然和社会科学、智能体应用等领域。其次，我们通过深入研究评估方法和基准来回答“哪里”和“如何”的问题，这是评估大语言模型性能的关键组成部分。然后，我们总结了大语言模型在不同任务中的成功和失败案例。最后，我们阐明了大语言模型评估未来面临的几个挑战。我们的目标是为大语言模型评估领域的研究人员提供宝贵的见解，从而帮助开发更熟练的大语言模型。我们的重点是，评估应该被视为一门重要学科，以更好地辅助大语言模型的发展。我们始终在以下位置维护相关开源材料：https://github.com/MLGroupJLU/LLM-eval-survey。

索引术语：

大型语言模型、评估、模型评估、基准测试

1 简介

理解智能的本质并确定机器是否体现智能对科学家来说是一个引人注目的问题。人们普遍认为，真实的情报使我们具备推理能力，使我们能够检验假设，并为未来的不测事件做好准备（Khalfa，1994）。特别是，人工智能 (AI) 研究人员专注于基于机器的智能的开发，而不是基于生物的智能（McCarthy，2007）。正确的测量有助于了解智力。例如，人类个体一般智力的测量通常包括智商测试（Brody，1999）。

for tree= grow=east, reversed=true, anchor=base west, parent anchor=east, child anchor=west, base=left, font=, rectangle, draw, rounded corners,align=left, minimum width=2.5em, inner xsep=4pt, inner ysep=1pt, , 其中 level=1text width=5em,fill=blue!10、其中 level=2text width=5em,font=,fill=pink!30, 其中 level=3font=,yshift=0.26pt,fill=yellow!20, [大语言模型

evaluation,fill=green![要评估什么

（第 3节）,文字宽度=7em [自然

语言

处理,文字宽度=4em [自然语言理解：

(1)情感分析：Bang 等人, (2023) / (Liang 等人,, 2022) / (Lopez-Lira 和 Tang ,, 2023) / (秦等人,, 2023) / (王等人, 2023j, ) / (张等人, 2023d , )

(2) 文本分类：(Liang 等人,, 2022) / (Peña 等人,, 2023) / (Yang and Menczer,, 2023)0>

(3)自然语言推理：(Lee 等人,, 2023)2> / (Qin 等人,, 2023 )3>

(4) 其他：(Choi 等人,, 2023)5> / (Riccardi 和 Desai,, 2023)6> / (陶等人,, 2023)7>] [推理：8> 邦等人, (2023)9> / (卞等人,, 2023)0> / (Frieder 等人,, 2023)1> / (Fu 等人, 2023b, )2> / (Liévin 等人,, 2022)3> / (刘等人, 2023b, )4> /

(Orrù 等人,, 2023)6> / (秦等人,, 2023)7> / (萨帕罗夫等人, 2023)8> / 吴等人, 2023c9> / (徐等人, 2023a, )0> / (庄等人,, 2023)1>

] [自然语言生成：

(1) 总结：(Bang 等人,, 2023) / (Liang 等人,, 2022) / (Pu 和 Demberg,, 2023) / (秦等人,, 2023)

(2)对话：(邦等人,, 2023) / （林、陈，2023） / （秦等人，，2023）

（3）翻译：（邦等人，，2023）0> / (吕等人, 2023a, )1> / (王等人, 2023d, )2>

(4) 问题解答：(白等人,, 2023)4> / (Bang 等人,, 2023)5> / (Bian 等人,, 2023)6> / (Laskar 等人, , 2023)7> / (梁等人,, 2022)8> / (秦等人,, 2023)9>

(5)其他：(Chen 等人,, 2023)1> / (Chia 等人,, 2023)2> / (Pu 等人,, 2023)3> ] [多语言：4> (Abdelali 等人,, 2023)5> / (Ahuja 等人,, 2023)6> / (Bang 等人,, 2023)7> / (赖等人,, 2023)8> / (张等人, 2023c, )9>] [事实：0> ( Gekhman 等人,, 2023)1> / (Honovich 等人,, 2022)2>/ (Manakul 等人, 2023a, )3>/ (Min 等人,, 2023)4>/ (Pezeshkpour,, 2023)5>/ (Wang 等人, 2023b, )6>] [稳健性/道德/

偏差/可信度，文本宽度=9em [ 稳健性：8> (Li 等人, 2023c, )9> / (Wang 等人,, 2022)0> / 王等人, 2023c1> / (杨等人,, 2022)2> /

赵等人, 2023b4> / (朱等人,, 2023)5> / 卓等人, 2023b6> ] [ 道德和偏见： (Cao et al.,, 2023) / Deshpande et al., (2023) / （Dhamala et al、2021) / Ferrara, (2023) / (Gehman等人, 2020)

(Hartmann 等人, 2023) / (Hendrycks等人、2020a, ) / （Parrish等人，2022） / （Rutinowski等人，2023） / （Sheng等人，、2021)

(Simmons,, 2022) / (Wang等, 2023e, ) / Zhuo等, 2023a ]。[ 可信度： （Hagendorff 和 Fabi，2023） / （Wang 等，2023a，） ] ]。][社会科学，文本 width=6em [(Deroy et al., 2023) / (Frank,, 2023) / (Nay et al., 2023) / (Wu et al., 2023a, ) / (Ziems et al., 2023) ] ]。][自然科学

& 工程学, text width=5.8em [Mathematics: (Arora等, 2023) / (Bubeck等, 2023) / (Collins等、2023) / （Dao 和 Le，2023） / （Wei 等人，2023） /

（Wu 等人，2023b，） / （Yuan 等人，2023b，） ] [...[一般科学： （阿罗拉等人，2023） / （卡斯特罗-纳西门托和皮门特尔，2023） / （郭等人，2023）][工程学： （Bubeck 等，，2023） / （Liu 等，2023c，） / （Pallagani 等，，2023） / （Sridhara 等，、2023) / (Valmeekam等人，2022) /

(Valmeekam等人，2023) / (Zhuang等人，2023) ]。][医疗应用，文本 width=8em [医疗查询： （Chervenak 等人，2023） / （Duong 和 Solomon，2023） / （Hamidi 和 Roberts，2023） / (Holmes 等人,,, 2023) / (Jahan 等人,,, 2023)

(Johnson 等人,,, 2023) / (Samaan 等人,,, 2023) / (Thirunavukarasu 等人,,, 2023) ] [体检： (Gilson 等人,, 2023) / (Kung 等人,, 2023)] [医疗助理： (Cascella 等人,, 2023) / (Khan 等人,, 2023) / (Lahat 等人,, 2023) / (Lyu 等人, 2023b, ) / (Oh 等人,, 2023) / (王等人, 2023i, )] ] [代理申请, text width=7em [ Huang 等人, 2023a / Karpas 等人, (2022) / (Parisi 等人,, 2022) / (Schick 等人,, 2023) / (Shen 等人,, 2023)0> ]] [其他

应用，文字宽度=5em [教育:2> (戴等人, 2023b, )3> / (de Winter,, 2023)4> / (希腊等人,, 2023)5> / (Wang and Demszky,, 2023)6> / Wei 等人, (2023)7>] [搜索与推荐： (戴等人, 2023a, ) / (范等人,, 2023) / (孙等人,, 2023) / (塔库尔等人,, 2021) / (徐等人, 2023c, ) / (张等人, 2023a, )] [性格测试： (Bodroza 等人,, 2023) / (Jentzsch 和 Kersting,, 2023) / (Safdari 等人,, 2023) / (宋等人,, 2023) / (王等人, 2023f, )] [具体任务： (Lanzi and Loiacono,, 2023) / (Le and Zhang,, 2023) / (Wang 等人, 2023h, )] ] ] [在哪里评估

（第4)，文本宽度=7.8em [一般

基准，文本宽度=4.2em [MME (Fu 等人, 2023a , ) / AlpacaEval (李等人, 2023d, )/ Chatbot Arena (LMSYS,, 2023) / 谢志 (顾等人,, 2023)0> / C-Eval (黄等人, 2023b, )1> /

DynaBench (Kiela 等人,, 2021)3> OpenLLM (HuggingFace,, 2023)4> / HELM (梁等人,, 2022)5> / Big-Bench (Srivastava 等人,, 2022)6>/ PandaLM (王等人, 2023h, )7>/

GLUE-X (杨等人,, 2022)9> KoLA (于等人,, 2023)9> t20>/ MT-Bench (郑等人,, 2023)1> / AGIEval (钟等人,, 2023)2>/ PromptBench (朱等人,, 2023 )3>] ] [具体

基准，文本宽度=4.2em [SOCKET (Choi 等人,, 2023)5> / CUAD (Hendrycks 等人, 2021b, ) 6> / TRUSTGPT (黄等人, 2023c, )7> / MATH (Hendrycks 等人, 2021c, )8>

APPS (Hendrycks 等人, 2021a, )0> / API-Bank (李等人, 2023a, )1> / ARB (泽田等人,, 2023)2> / MultiMedQA ( Singhal 等人,, 2022)3>

CVALUES (徐等人, 2023b, )5> / ToolBench (ToolBench,, 2023)6> / M3Exam (张等人, 2023c, )7> / GAOKAO-Bench (张等人, 2023e, )8>] ] ] [如何评价

(Sec. 5自动评估： (Bang 等人,, 2023) / Jain 等人, (2023) / (Lin 和 Chen, 2023) / (秦等人,, 2023) / (王等人, 2023h, ) ] [人类评价： (Bang 等人,, 2023) / (Bubeck 等人,, 2023) / (Liang 等人,, 2022) / (Ziems 等人,, 2023) ] ] ] [摘要

(Sec. 6),text width=4em [任务：大语言模型成功与失败案例,text width=15.5em ] [基准和评估，text width=10.5em [Human-in-the-loop: AdaVision (Gao 等人,, 2022) / AdaTest （Ribeiro 和 Lundberg，2022） ] [众包测试： DynaBench (Kiela 等人,, 2021) / DynaBoard (Ma 等人,, 2021) / DynamicTempLAMA (Margatina 等人,, 2023) /

DynaTask (画眉等人,, 2022) ] [更具挑战性的任务： HELM (Liang 等人,, 2022) / AdaFilter (Phang 等人,, 2021) / CheckList (Ribeiro 等人,, 2020) / Big-Bench (Srivastava 等人,, 2022) /

DeepTest (Tian 等人,, 2018) / PromptBench (朱等人, , 2023) ] ] ] [重大挑战

(Sec. 7),text width=7em [挑战,text width=4em [(1) 设计 AGI 基准 (2 ) 完整的行为评估 (3) 鲁棒性评估 (4) 动态和演化评估

(5) 原则性和可信评估 (6) 支持所有大语言模型任务的统一评估 (7) 超越评估：大语言模型增强] ] ] ]

图1：本文的结构。

在人工智能领域，图灵测试（Turing，2009）是一种广泛认可的测试，通过辨别响应是人类还是机器来评估智力，它一直是人工智能进化的长期目标。研究人员普遍认为，成功通过图灵测试的计算机就可以被视为具有智能。因此，从更广泛的角度来看，人工智能的编年史可以被描述为智能模型和算法的创建和评估的时间线。随着每一种新颖的人工智能模型或算法的出现，研究人员总是通过使用特定且具有挑战性的任务进行评估来审视其在现实场景中的能力。例如，感知机算法（Gallant等人，1990），在20世纪50年代被吹捧为通用人工智能（AGI）方法，后来因无法解决异或问题而被揭露为不足。。随后支持向量机（SVM）（Cortes and Vapnik, 1995）和深度学习（LeCun等人,, 2015）的兴起和应用标志着进步和进步。人工智能领域的挫折。从之前的尝试中得到的一个重要结论是人工智能评估的重要性，它是识别当前系统局限性并为更强大模型的设计提供信息的关键工具。

近年来，大语言模型在学术界和工业界引起了极大的兴趣（Wei 等人，2022a，；Bommasani 等人，，2021；Zhao 等人，2023a，）。正如现有工作(Bubeck等人,, 2023)所证明的那样，大语言模型的出色表现让人相信它们可以成为这个时代的AGI。大语言模型具有解决多样化任务的能力，与之前仅限于解决特定任务的模型形成鲜明对比。由于其在处理一般自然语言任务和特定领域任务等不同应用方面的出色性能，大语言模型越来越多地被具有关键信息需求的个人（例如学生或患者）使用。

由于多种原因，评估对于大语言模型的成功至关重要。首先，评估大语言模型有助于我们更好地了解大语言模型的优势和劣势。例如，PromptBench (Zhu 等人,, 2023) 基准测试表明，当前的大语言模型对对抗性提示很敏感，因此需要仔细的提示工程才能获得更好的性能。其次，更好的评估可以为人类与 LLM 的互动提供更好的指导，这可以激发未来的互动设计和实施。第三，大语言模型的广泛适用性凸显了确保其安全性和可靠性的至关重要性，特别是在金融机构和医疗机构等安全敏感领域。最后，随着大语言模型变得越来越大，出现的能力越来越多，现有的评估协议可能不足以评估其能力和潜在风险。因此，我们的目的是通过回顾当前的评估协议来唤起社区对大语言模型评估重要性的认识，最重要的是，为设计新的大语言模型评估协议的未来研究提供线索。

随着 ChatGPT (OpenAI, 2023a, ) 和 GPT-4 (OpenAI, 2023b, ) 的引入，已经有许多旨在评估 ChatGPT 和其他技术的研究工作。大语言模型从不同方面（图2)，涵盖自然语言任务、推理、稳健性、可信性、医学应用和伦理考虑等一系列因素。尽管做出了这些努力，但仍然缺乏涵盖整个评价范围的全面概述。此外，大语言模型的不断发展也为评估带来了新的方面，从而挑战了现有的评估协议，并加强了对彻底、多方面评估技术的需求。虽然（Bubeck等人，2023）等现有研究声称GPT-4可以被视为AGI的火花，但其他人由于其评估方法的人为性质而对这一说法提出质疑。

本文是第一个关于大型语言模型评估的综合调查。如图1所示，我们从三个维度探索现有工作：1）评估什么，2）在哪里评估，3）如何评估。具体来说，“评估什么”概括了大语言模型现有的评估任务，“在哪里评估”涉及选择合适的数据集和基准进行评估，而“如何评估”涉及给定合适的任务和数据集的评估过程。这三个维度是大语言模型评价的组成部分。我们随后讨论大语言模型评估领域未来潜在的挑战。

本文的贡献如下：

1.

我们从评估什么、评估哪里、如何评估三个方面对大语言模型评估进行了全面的概述。我们的分类是通用的，涵盖了大语言模型评估的整个生命周期。
2.

对于评估内容，我们总结了各个领域的现有任务，并通过大语言模型（第6)的成功和失败案例得出了富有洞察力的结论，为未来的研究提供了经验。
3.

至于在哪里进行评估，我们总结了评估指标、数据集和基准，以提供对当前大语言模型评估的深刻理解。在如何评估方面，我们探索了现有的协议并总结了新的评估方法。
4.

我们进一步讨论评估大语言模型的未来挑战。我们在https://github.com/MLGroupJLU/LLM-eval-survey开源并维护大语言模型评估的相关资料，以形成协作社区以更好地进行评估。

本文的结构如下。在秒。 2，我们提供大语言模型和AI模型评估的基本信息。然后，秒。 3从“评估什么”的角度回顾现有工作。之后，秒。 4 是“在哪里评估”部分，总结了现有的数据集和基准。秒。 5 讨论如何执行评估。在秒。 6，我们总结了本文的主要发现。我们在第二部分讨论未来的重大挑战。 7 和秒。 8 总结本文。

2 背景

2.1 大型语言模型

语言模型（LM）（Gao and Lin,, 2004；Kombrink 等人,, 2011；Devlin 等人,, 2018）是能够理解和生成人类语言的计算模型。语言模型具有预测单词序列的可能性或根据给定输入生成新文本的变革能力。 N-gram 模型(Brown 等人,, 1992) 是最常见的 LM 类型，它根据前面的上下文估计单词概率。然而，语言模型也面临着挑战，例如罕见或未见过的单词问题、过度拟合问题以及难以捕获复杂的语言现象。研究人员正在不断致力于改进 LM 架构和训练方法来应对这些挑战。

大语言模型（Large Language Models）（Kasneci 等人，2023；Zhao 等人，2023a，；Chen 等人，2021）是具有海量参数大小和卓越学习能力的高级语言模型。 GPT-3 (Floridi and Chiriatti,, 2020)、InstructGPT (Ouyang 等人,, 2022)、GPT-4 等众多大语言模型背后的核心模块(OpenAI, 2023b, ) 是 Transformer (Vaswani 等人,, 2017) 中的自注意力模块，它是语言建模任务的基本构建块。 Transformer 能够有效处理顺序数据，从而实现并行化并捕获文本中的远程依赖关系，从而彻底改变了 NLP 领域。大语言模型的一个关键特征是上下文学习(Brown 等人,, 2020)，模型被训练为根据给定的上下文或提示生成文本。这使得大语言模型能够生成更加连贯和上下文相关的响应，使其适合交互式和会话应用程序。人类反馈强化学习（RLHF）(Ziegler 等人,, 2019; Christiano 等人,, 2017)是大语言模型的另一个重要方面。该技术涉及使用人类生成的响应作为奖励来微调模型，使模型能够从错误中学习并随着时间的推移提高其性能。

图2：大语言模型评测论文随时间变化的趋势 (2020年-6月) 2023 年，包括 7 月。 2023.）。

在自回归语言模型中，例如 GPT-3 和 PaLM (Chowdhery 等人,, 2022)，给定上下文序列 $X$ ，LM 任务旨在预测下一个词符 $y$ 。通过最大化给定词符序列以上下文为条件的概率来训练模型，即 $P(y|X)=P(y|x_{1},x_{2},...,x_{t-1})$ ，其中 $x_{1},x_{2},...,x_{t-1}$ 是上下文序列中的标记， $t$ 是当前位置。通过使用链式法则，条件概率可以分解为每个位置的概率的乘积：

P(y|X)=\prod_{t=1}^{T}P(y_{t}|x_{1},x_{2},...,x_{t-1}),

其中 $T$ 是序列长度。这样，模型以自回归的方式预测每个位置的每个词符，生成完整的文本序列。

与大语言模型交互的一种常见方法是提示工程（Zhou 等人,, 2022; White 等人,, 2023; Clavié 等人,, 2023），用户设计并提供特定的提示文本指导大语言模型产生期望的反应或完成特定的任务。这在现有的评估工作中被广泛采用。人们还可以进行问答互动(Jansson 等人,, 2021)，向模型提出问题并获得答案，或者进行对话互动，与大人进行自然语言对话语言模型。总之，大语言模型凭借其 Transformer 架构、上下文学习和 RLHF 功能，彻底改变了 NLP 并在各种应用中带来了希望。表I提供了传统机器学习、深度学习和大语言模型的简要比较。

表一：传统机器学习、深度学习和大语言模型的比较

Comparison	Traditional ML	DL	LLMs
Training Data Size	Large	Large	Very large
Feature Engineering	Manual	Automatic	Automatic
Model Complexity	Limited	Complex	Very Complex
Interpretability	Good	Poor	Poorer
Performance	Moderate	High	Highest
Hardware Requirements	Low	High	Very High

2.2 AI模型评估

AI模型评估是评估模型性能的重要步骤。有一些标准的模型评估协议，包括 $k$ 折叠交叉验证、保留验证、留一交叉验证（LOOCV）、引导程序和缩减集（Kohavi等人，1995）；贝拉尔，2019）。例如， $k$ 训练折叠交叉验证将数据集分为 $k$ 部分，其中一部分作为测试集，其余作为集合，这样可以减少训练数据的损失，获得相对更准确的模型性能评估（Fushiki，2011）； Holdout验证将数据集分为训练集和测试集，计算量较小，但可能存在较大偏差； LOOCV是一种独特的 $k$ 折叠交叉验证方法，其中仅使用一个数据点作为测试集（Wong，2015）；缩减集用一个数据集训练模型，用剩余数据测试模型，计算简单，但适用性有限。应根据具体问题和数据特点选择合适的评估方法，以获得更可靠的性能指标。

图3展示了包括大语言模型在内的人工智能模型的评估流程。由于训练规模较大，某些评估协议可能无法评估深度学习模型。因此，静态验证集的评估长期以来一直是深度学习模型的标准选择。例如，计算机视觉模型利用 ImageNet (Deng 等人,,, 2009) 和 MS COCO (Lin 等人,, 2014) 等静态测试集进行评估。大语言模型还使用 GLUE (Wang 等人,, 2018) 或 SuperGLUE (Wang 等人,, 2019) 作为通用测试集。

随着大语言模型越来越受欢迎，但可解释性却越来越差，现有的评估协议可能不足以彻底评估大语言模型的真实能力。我们将在第二节介绍大语言模型的最新评估。 5。

3 评估内容

我们应该评估哪些任务来展示大语言模型的表现？大语言模型在哪些任务上有优势和劣势？在本节中，我们将现有任务分为以下几类：自然语言处理、鲁棒性、伦理、偏见和可信度、社会科学、自然科学与工程、医学应用、代理应用（使用大语言模型作为代理）和其他应用。¹¹1请注意，大语言模型是在各种任务中进行评估的，本文中的分类只是这些作品分类的一种可能方式。当然还有其他分类法。

3.1 自然语言处理任务

开发语言模型（特别是大型语言模型）的最初目标是提高自然语言处理任务的性能，包括理解和生成。因此，大多数评估研究主要集中在自然语言任务上。表II总结了现有研究的评价方面，下面我们主要强调他们的结论。²²2多个 NLP 领域存在交叉点，因此我们对这些领域的分类只是一种可能的分类方式。

表二：自然语言处理任务评估总结：NLU（自然语言理解，包括SA（情感分析）、TC（文本分类）、NLI（自然语言推理）等NLU任务）、Rng。（推理）、NLG（自然语言生成，包括 Summ. （总结），Dlg。（对话）、Tran（翻译）、QA（问答）和其他 NLG 任务）和 Mul。（多语言任务）（按第一作者姓名排序）。

	NLU				Rng.	NLG					Mul.
Reference	SA	TC	NLI	Others	Rng.	Summ.	Dlg.	Tran.	QA	Others	Mul.
(Abdelali et al.,, 2023)											✓
(Ahuja et al.,, 2023)											✓
(Bian et al.,, 2023)					✓				✓
(Bang et al.,, 2023)	✓				✓	✓	✓	✓	✓		✓
(Bai et al.,, 2023)									✓
(Chen et al.,, 2023)										✓
(Choi et al.,, 2023)				✓
(Chia et al.,, 2023)										✓
(Frieder et al.,, 2023)					✓
(Fu et al., 2023b, )					✓
(Gekhman et al.,, 2023)						✓
(Honovich et al.,, 2022)			✓			✓	✓			✓
(Lai et al.,, 2023)											✓
(Laskar et al.,, 2023)	✓		✓		✓	✓		✓	✓	✓	✓
(Lopez-Lira and Tang,, 2023)	✓
(Liang et al.,, 2022)	✓	✓				✓			✓
(Lee et al.,, 2023)			✓
(Lin and Chen,, 2023)							✓
(Liévin et al.,, 2022)					✓
(Liu et al., 2023b, )					✓
(Lyu et al., 2023a, )									✓
(Manakul et al., 2023a, )									✓	✓
(Min et al.,, 2023)										✓
(Orrù et al.,, 2023)					✓
(Peña et al.,, 2023)		✓
(Pu and Demberg,, 2023)						✓				✓
(Pezeshkpour,, 2023)										✓
(Qin et al.,, 2023)	✓		✓		✓	✓	✓		✓
(Riccardi and Desai,, 2023)				✓
(Saparov et al.,, 2023)					✓
(Tao et al.,, 2023)				✓
(Wang et al., 2023d, )								✓
(Wang et al., 2023j, )	✓
(Wang et al., 2023b, )			✓						✓
(Wu et al., 2023c, )					✓
(Xu et al., 2023a, )					✓
(Yang and Menczer,, 2023)		✓
(Zhang et al., 2023d, )	✓
(Zhang et al., 2023c, )											✓
(Zhuang et al.,, 2023)					✓

3.1.1 自然语言理解

自然语言理解代表了一系列旨在更好地理解输入序列的任务。我们从几个方面总结了近年来大语言模型评估方面的工作。

情感分析是一项分析和解释文本以确定情感倾向的任务。它通常是二元（正和负）或三元（正、中性和负）类分类问题。评估情感分析任务是一个流行的方向。 Liang 等人, (2022); Zeng 等人, (2022) 表明模型在此任务上的性能通常很高。 ChatGPT 的情感分析预测性能优于传统情感分析方法（Lopez-Lira and Tang，2023），接近 GPT-3.5 （Qin 等人，2023）. 在细粒度的情感和情绪原因分析中，ChatGPT也表现出了出色的性能（王等人，2023j，）。在低资源学习环境中，大语言模型比小语言模型表现出显着优势（张等人，2023d，），但ChatGPT理解低资源语言的能力有限（ Bang 等人,, 2023)。总之，大语言模型在情感分析任务中表现出了值得称赞的表现。未来的工作应侧重于提高他们理解资源贫乏语言中的情感的能力。

文本分类和情感分析是相关领域，文本分类不仅关注情感，还包括对所有文本和任务的处理。 Liang 等人 (2022) 的工作表明，GLM-130B 是性能最好的模型，对杂项文本分类的总体准确率为 85.8%。 Yang 和 Menczer（2023）发现 ChatGPT 可以为广泛的新闻媒体提供可信度评级，并且这些评级与人类专家的评级具有中等相关性。此外，ChatGPT 在二元分类场景中实现了可接受的准确度（AUC=0.89）。 Peña 等人, (2023)讨论了公共事务文档的主题分类问题，并表明使用大语言模型主干结合 SVM 分类器是进行多标签主题分类的有用策略公共事务领域的任务，准确率超过85%。总体而言，大语言模型在文本分类方面表现良好，甚至可以处理非常规问题设置中的文本分类任务。

自然语言推理（NLI）是确定给定的“假设”是否在逻辑上遵循“前提”的任务。 Qin 等人, (2023) 表明 ChatGPT 在 NLI 任务上优于 GPT-3.5。他们还发现 ChatGPT 在处理事实输入方面表现出色，这可能归因于其 RLHF 训练过程有利于人类反馈。然而，Lee 等人, (2023)观察到大语言模型在 NLI 范围内表现不佳，并且无法代表人类的分歧，这表明大语言模型在这方面仍有很大的改进空间场地。

语义理解是指对语言及其相关概念的含义或理解。它涉及对单词、短语、句子以及它们之间的关系的解释和理解。语义处理超越了表面层面，侧重于理解潜在的含义和意图。 Tao等人, (2023)综合评估了大语言模型的事件语义处理能力，涵盖事件语义的理解、推理和预测。结果表明，大语言模型具有对单个事件的理解，但感知事件之间语义相似性的能力受到限制。在推理任务中，大语言模型在因果关系和意向关系中表现出较强的推理能力，但在其他关系类型中的表现相对较弱。在预测任务中，大语言模型通过增加上下文信息表现出对未来事件的增强预测能力。 Riccardi and Desai, (2023) 探索了大语言模型的语义熟练程度，并表明这些模型在评估基本短语方面表现不佳。此外，GPT-3.5 和 Bard 无法区分有意义和无意义的短语，始终将高度无意义的短语分类为有意义。 GPT-4显示出显着的改进，但其性能仍然明显低于人类。综上所述，大语言模型在语义理解任务中的表现较差。未来我们可以从这方面入手，重点提升它在这个应用上的性能。

在社会知识理解领域，Choi 等人, (2023)评估了模型在学习和识别社会知识概念方面的表现，结果表明，尽管参数数量少得多，微调 BERT 等监督模型比使用最先进的大语言模型的零样本模型获得更好的性能，例如 GPT (Radford 等人,, 2018), GPT-J- 6B （Wang 和 Komatsuzaki，2021）等等。该声明表明，监督模型在性能方面显着优于零样本模型，强调参数的增加并不一定能保证在这种特定场景下获得更高水平的社会知识。

3.1.2推理

推理任务对智能人工智能模型提出了重大挑战。为了有效地解决推理任务，模型不仅需要理解所提供的信息，还需要在缺乏明确响应的情况下利用推理和推理来推断答案。表II表明，人们对评估大语言模型的推理能力越来越感兴趣，越来越多的文章专注于探索这方面就证明了这一点。目前，推理任务的评估大致可分为数学推理、常识推理、逻辑推理和领域特定推理。

ChatGPT 在大多数任务中表现优于 GPT-3.5，表现出强大的算术推理能力（Qin 等人,, 2023）。但其数学推理能力仍有待提高（Bang 等人,, 2023; Frieder 等人,, 2023; Zhuang 等人,, 2023）。在符号推理任务上，ChatGPT 大多比 GPT-3.5 差，这可能是因为 ChatGPT 容易出现不确定的响应，导致性能较差(Bang 等人,, 2023)。吴等人, 2023c通过大语言模型在反事实条件下的任务变体上表现不佳，表明当前大语言模型在摘要推理能力上存在一定的局限性。在逻辑推理方面，Liu等人，2023b表示，ChatGPT和GPT-4在大多数基准测试上都优于传统的微调方法，展示了它们在逻辑推理方面的优越性。然而，这两种模型在处理新数据和分布外数据时都面临挑战。 ChatGPT 的性能不如其他大语言模型，包括 GPT-3.5 和 BARD (Xu 等人, 2023a, ;qin 等人,, 2023)。这是因为 ChatGPT 是专门为聊天而设计的，因此它在保持理性方面做得非常出色。 FLAN-T5、LLaMA、GPT-3.5 和 PaLM 在一般演绎推理任务中表现良好（Saparov 等人,, 2023）。 GPT-3.5 不擅长在归纳环境中保持定向推理(Xu 等人, 2023a, )。对于多步推理，Fu 等人，2023b 表明 PaLM 和 Claude2 是仅有的两个达到相似性能的模型系列（但仍然比 GPT 模型系列差）。此外，LLaMA-65B是迄今为止最强大的开源大语言模型，其性能与code-davinci-002非常接近。有论文分别评估了 ChatGPT 在某些推理任务上的性能：ChatGPT 在常识推理任务上普遍表现不佳，但相对优于非文本语义推理（Bang 等人,, 2023）。同时，ChatGPT也缺乏空间推理能力，但表现出更好的时间推理能力。最后，虽然 ChatGPT 在因果推理和类比推理上的表现尚可，但在多跳推理能力上表现不佳，这与其他大语言模型在复杂推理上的弱点类似(Ott 等人,, 2023) 。在专业领域推理任务中，零样本InstructGPT和Codex能够胜任复杂的医学推理任务，但仍需进一步完善（Liévin等人,, 2022）。在语言洞察问题方面，(Orrù 等人,, 2023)展示了 ChatGPT 在解决语言洞察问题方面的潜力，因为 ChatGPT 的表现与人类参与者相当。需要说明的是，上述结论大多是针对特定数据集得出的。总体而言，大语言模型在推理方面表现出巨大的潜力，并呈现出不断改进的趋势，但仍面临许多挑战和局限性，需要更深入的研究和优化。

3.1.3 自然语言生成

自然语言生成（NLG）评估大语言模型生成特定文本的能力，它由多项任务组成，包括摘要、对话生成、机器翻译、问答和其他开放式生成应用。

Summarization 是一项生成任务，旨在学习给定句子的简洁摘要。在此评估中，Liang 等人, (2022) 发现 TNLG v2 (530B) (Smith 等人,, 2022) 在两种场景中均取得了最高分，其次是OPT (175B) (Zhang 等人,, 2022) 位居第二。令人失望的是，ChatGPT 有时会生成比输入文档 (Bang 等人,, 2023) 更长的摘要。经过微调的 Bart (Lewis 等人,, 2019) 仍然比零样本 ChatGPT 更好。具体来说，ChatGPT 表现出与 text-davinci-002 (Bang 等人,, 2023) 相当的零样本性能，但性能比 GPT-3.5 (Qin 等人,, 2023). 在可控文本摘要中，Pu 和 Demberg（2023）表明，与人工摘要相比，ChatGPT 摘要的提取性更强（即包含更多直接从源复制的内容）。这些结果表明大语言模型，特别是ChatGPT，在摘要任务中具有一般的表现。但他们的总结和概括能力还有待进一步提高。

评估大语言模型在对话任务上的性能对于对话系统的开发和改善人机交互至关重要。通过这样的评估，可以提高模型的自然语言处理能力、上下文理解能力和生成能力，从而实现更智能、更自然的对话系统。与 GPT-3.5 相比，Claude 和 ChatGPT 通常在所有维度上都取得了更好的性能（Qin 等人，2023；Lin 和 Chen，2023）。在比较 Claude 和 ChatGPT 模型时，两个模型在不同的评估维度上都表现出了竞争性的性能，Claude 在特定配置下略优于 ChatGPT。 Bang 等人, (2023) 在 ChatGPT 上进行了不同对话设置下响应生成的测试：1）基于知识的开放域对话和 2）面向任务的对话。自动评估结果显示，ChatGPT 的性能相对低于在基于知识的开放域对话数据集上微调的 GPT-2。在面向任务的对话中，ChatGPT的表现尚可；然而，它在面临以下挑战时容易出错：长期多轮依赖、基本推理失败和外在幻觉。

虽然大语言模型没有针对翻译任务进行明确的训练，但它们仍然可以表现出强大的性能。 Wang 等人，2023d 证明，经人类评估，ChatGPT 和 GPT-4 与商业机器翻译 (MT) 系统相比表现出卓越的性能。此外，它们在 sacreBLEU 分数方面优于大多数文档级 NMT 方法。在对比测试中，与传统翻译模型相比，ChatGPT 的准确性较低。然而，GPT-4 在解释话语知识方面表现出了强大的能力，尽管它偶尔可能会选择不正确的翻译候选。 (Bang 等人,, 2023)的研究结果表明，ChatGPT 可以很好地执行 X $\to$ Eng 翻译，但仍缺乏执行 Eng $\to$ 的能力X 翻译。 (Lyu 等人, 2023a, )利用大语言模型研究了机器翻译的几个研究方向。这项研究对机器翻译研究的进步做出了重大贡献，并凸显了大语言模型在增强翻译能力方面的潜力。综上所述，虽然大语言模型在多项翻译任务中表现令人满意，但仍有改进的空间，例如增强英语到非英语语言的翻译能力。

问答是人机交互领域的一项关键技术，在搜索引擎、智能客服、问答系统等场景中有着广泛的应用。 QA 模型中准确性和效率的测量将对这些应用产生重大影响。根据 Liang 等人 (2022) 的说法，在所有评估的模型中，InstructGPT davinci v2 (175B) 在 9 个问答场景中在准确性、鲁棒性和公平性方面表现出最高的性能。与 GPT-3 相比，GPT-3.5 和 ChatGPT 在回答一般知识问题的能力方面都表现出了显着的进步。在大多数领域，ChatGPT 的性能均超过 GPT-3.5 2% 以上（Bian 等人,, 2023；Qin 等人,, 2023）。然而，ChatGPT 在 CommonsenseQA 和 Social IQA 基准上的表现略弱于 GPT-3.5。这可以归因于 ChatGPT 的谨慎性质，因为当可用信息不足时，它往往会拒绝提供答案。经过微调的模型，如 Vícuna 和 ChatGPT，表现出优异的性能，得分近乎完美，大幅超越缺乏监督微调的模型（Bang 等人,, 2023；Bai 等人,, 2023）。 Laskar 等人, (2023) 评估了 ChatGPT 在一系列学术数据集上的有效性，包括回答问题、总结文本、生成代码、常识推理、解决数学问题、翻译语言等各种任务、发现偏见并解决道德问题。总体而言，大语言模型在 QA 任务中展示了完美的表现，并有潜力在未来进一步提高他们对社交、事件和时间常识知识的熟练程度。

还有其他生成任务需要探索。在句子风格迁移领域，Pu and Demberg，（2023）证明，ChatGPT通过在相同子集上进行少样本学习训练，超越了之前的SOTA监督模型，如下从较高的 BLEU 分数即可看出。然而，在控制句子风格的形式性方面，ChatGPT 的表现仍然与人类行为存在显着差异。在写作任务中，Chia等人（2023）发现大语言模型在信息性写作、专业性写作、议论文性写作和创意写作等各个类别上表现出一致的表现。这一发现表明大语言模型具有一般的写作能力。在文本生成质量方面，Chen等人（2023）透露，即使在没有参考文本的情况下，ChatGPT也能从多个角度评估文本质量，超越了大多数现有的自动化指标。使用 ChatGPT 生成文本质量的数字分数成为所研究的各种测试方法中最可靠、最有效的方法。

3.1.4 多语言任务

虽然英语是主要语言，但许多大语言模型都是使用混合语言训练数据进行训练的。多语言数据的结合确实帮助大语言模型获得了处理输入并生成不同语言响应的能力，使其在全球范围内得到广泛采用和接受。然而，由于这项技术的出现相对较新，大语言模型主要是在英语数据上进行评估，导致评估其多语言表现的潜在监督。为了解决这个问题，有几篇文章对大语言模型在不同非英语语言的各种 NLP 任务上的表现进行了全面、开放和独立的评估。这些评估为未来的研究和应用提供了宝贵的见解和观点。

Abdelali 等人 (2023) 评估了 ChatGPT 在标准阿拉伯语 NLP 任务中的性能，并观察到在大多数任务的零样本设置中，ChatGPT 的性能低于 SOTA 模型。 Bang 等人, (2023);张等人, 2023c ;赖等人, (2023); Ahuja 等人, (2023)跨多个数据集使用了更多语言，涵盖了更广泛的任务，并对大语言模型进行了更全面的评估，包括 BLOOM、Vicuna、Claude、ChatGPT 和 GPT -4。结果表明，这些大语言模型在非拉丁语言和资源有限的语言上表现不佳。尽管将输入翻译成英语并将其用作查询，但与 SOTA 模型（Ahuja 等人,, 2023）相比，生成式大语言模型在任务和语言方面的表现仍然低于标准。此外，Bang 等人，(2023)强调，ChatGPT 在翻译具有丰富语言资源的非拉丁文字语言编写的句子时仍然面临限制。综上所述，大语言模型在多语言任务方面存在着众多的挑战和充足的提升机会。未来的研究应优先考虑实现多语言平衡并解决非拉丁语言和资源匮乏语言面临的挑战，以更好地支持全球用户。同时，应注意语言的公正性和中立性，以减少任何可能影响多语言申请的潜在偏见，包括英语偏见或其他偏见。

3.1.5事实性

大语言模型中的事实性是指模型提供的信息或答案与现实世界的真相和可验证的事实相符的程度。大语言模型中的事实性显着影响各种任务和下游应用程序，例如问答系统、信息提取、文本摘要、对话系统和自动事实检查，其中不正确或不一致的信息可能导致严重的误解和曲解。为了信任和有效地使用这些模型，评估事实性非常重要。这包括这些模型与已知事实保持一致性、避免产生误导或虚假信息（称为“事实幻觉”）以及有效学习和回忆事实知识的能力。人们提出了一系列方法来衡量和提高大语言模型的真实性。

Wang 等人, 2023b 评估了几个大型模型的内部知识能力，即 InstructGPT、ChatGPT-3.5、GPT-4 和 BingChat (Microsoft, 2023)，根据 Natural Questions (Kwiatkowski 等人,, 2019) 和 TriviaQA (Joshi 等人,, 2017) 数据集检查他们回答开放性问题的能力。评估过程涉及人工评估。研究结果表明，虽然 GPT-4 和 BingChat 可以为超过 80% 的问题提供正确答案，但距离完全准确仍存在 15% 以上的差距。在Honovich等人（2022）的工作中，他们对当前的事实一致性评估方法进行了回顾，并强调了缺乏统一的比较框架以及相关分数相对于二元标签的参考价值有限。为了解决这个问题，他们将现有的事实一致性任务转换为二进制标签，专门只考虑与输入文本是否存在事实冲突，而不考虑外部知识。研究发现，基于自然语言推理和问题生成-问答的事实评估方法表现出优越的性能，并且可以相辅相成。 Pezeshkpour（2023）提出了一种基于信息论的新颖度量来评估大语言模型中特定知识的包含情况。该指标利用知识不确定性的概念来衡量事实性，通过大语言模型填写提示并检查答案的概率分布来计算。本文讨论了向大语言模型注入知识的两种方法：在提示中显式包含知识和利用知识相关数据对大语言模型进行隐式微调。研究表明，这种方法超越了传统的排名方法，准确率提高了 30% 以上。 Gekhman等人, (2023)改进了摘要任务中事实一致性的评估方法。它提出了一种新颖的方法，其中涉及使用多个模型生成的摘要并由大语言模型注释来训练学生 NLI 模型，以确保事实一致性。然后将训练好的学生模型用于摘要事实一致性评估。 Manakul 等人, 2023a 基于两个关于大语言模型如何产生事实或幻觉反应的假设。它提出使用三个公式（BERTScore (Zhang 等人,, 2019)、MQAG (Manakul 等人, 2023b, ) 和 n-gram）来评估真实性和采用替代大语言模型来收集黑盒语言模型的词符概率。研究发现，简单地计算句子可能性或熵有助于验证回答的真实性。 Min等人, (2023)将大语言模型生成的文本分解为单个“原子”事实，然后评估其正确性。 FActScore 用于通过计算 F1 分数来衡量估计器的性能。该论文测试了各种估计器，并表明当前的估计器在有效解决该任务方面仍有一段路要走。 Lin 等人，(2021) 引入了 TruthfulQA 数据集，旨在导致模型出错。通过提供事实答案来测试多种语言模型。这些实验的结果表明，简单地扩大模型训练规模可能不一定会提高其真实性，并且为该方法提供了建议。该数据集已广泛用于评估大语言模型（Kadavath 等人,, 2022; Touvron 等人,, 2023; OpenAI, 2023b, ; Wei 等人, 2022b, ）的真实性。

3.2 稳健性、道德、偏见和可信度

表三：大语言模型稳健性、道德、偏见和可信度评估摘要（按第一作者姓名排序）。

Reference	Robustness	Ethics and Biases	Trustworthiness
(Cao et al.,, 2023)		✓
(Dhamala et al.,, 2021)		✓
(Deshpande et al.,, 2023)		✓
(Ferrara,, 2023)		✓
(Gehman et al.,, 2020)		✓
(Hartmann et al.,, 2023)		✓
(Hendrycks et al., 2020a, )		✓
(Hagendorff and Fabi,, 2023)			✓
(Li et al., 2023c, )	✓
(Parrish et al.,, 2022)		✓
(Rutinowski et al.,, 2023)		✓
(Sheng et al.,, 2021)		✓
(Simmons,, 2022)		✓
(Wang et al.,, 2022)	✓
Wang et al., 2023c	✓
(Wang et al., 2023a, )	✓	✓	✓
(Wang et al., 2023e, )		✓
(Yang et al.,, 2022)	✓
(Zhao et al., 2023b, )	✓
(Zhuo et al., 2023b, )	✓
(Zhu et al.,, 2023)	✓
(Zhuo et al., 2023a, )		✓

大语言模型的评估涵盖了稳健性、道德性、偏见性和可信性等关键方面。这些因素在综合评估大语言模型的性能方面变得越来越重要。

3.2.1稳健性

鲁棒性研究系统面对意外输入时的稳定性。具体来说，分布外（OOD）（Wang等人，2022）和对抗性鲁棒性是鲁棒性的两个热门研究主题。 Wang 等人, 2023c 是一项早期工作，使用 AdvGLUE 等现有基准从对抗性和 OOD 角度评估 ChatGPT 和其他大语言模型 (Wang 等人, 2021a, )、ANLI (Nie 等人,, 2019) 和 DDXPlus (Fansi Tchango 等人,, 2022) 数据集。 Zhuo等人, 2023b评估了语义解析的鲁棒性。 Yang 等人, (2022) 通过扩展 GLUE (Wang 等人,, 2018) 数据集来评估 OOD 稳健性。这项研究的结果强调了操纵视觉输入时对整个系统安全性的潜在风险。对于视觉语言模型，Zhao等人，2023b评估了大语言模型在视觉输入上的表现，并将其转移到其他视觉语言模型中，揭示了视觉输入的脆弱性。 Li 等人，2023c 概述了语言模型的 OOD 评估：对抗性鲁棒性、领域泛化和数据集偏差。作者对三个研究方向进行了比较和统一，总结了每个方向的数据生成过程和评估协议，并强调了未来工作的挑战和机遇。

对于对抗性鲁棒性，朱等人，(2023)通过提出一个名为 PromptBench 的统一基准来评估大语言模型对提示的鲁棒性。他们在多个层面（字符、单词、句子和语义）全面评估了对抗性文本攻击。结果表明，当代大语言模型很容易受到对抗性提示的影响，凸显了模型在面对对抗性输入时稳健性的重要性。至于新的对抗数据集，Wang等人，2023a引入了使用AdvGLUE++基准数据来评估对抗鲁棒性，并实施了新的评估协议，通过越狱系统提示来审查机器道德。

3.2.2 道德和偏见

人们发现大语言模型可以内化、传播并潜在地放大爬取的训练语料库中存在的有害信息，通常是有毒语言，例如攻击性、仇恨言论和侮辱(Gehman 等人,, 2020)，以及社会偏见，例如对具有特定人口特征的人的刻板印象(例如、性别、种族、宗教、职业和意识形态）(Sheng 等人,, 2021)。最近，Zhuo 等人，2023a 使用了传统的测试集和指标（Gehman 等人,, 2020；Dhamala 等人,, 2021；Parrish 等人,, 2022）对 ChatGPT 的毒性和社会偏见进行系统评估，发现它在某种程度上仍然表现出有害内容。更进一步，Deshpande 等人 (2023) 将角色扮演引入模型，并观察到产生的毒性增加了 6 倍。此外，这种角色扮演还导致了对特定实体的偏见毒性。与简单地测量社会偏见不同，Ferrara, (2023)调查了 ChatGPT 可能产生的这些偏见的来源、潜在机制和相应的伦理后果。除了社会偏见之外，大语言模型还通过政治倾向和人格特质(Rutinowski 等人,, 2023; Hartmann 等人,, 2023)基于政治指南针测试和MBTI测试等问卷进行评估，证明具有进步观点的倾向和 ENFJ 人格类型。此外，像GPT-3这样的大语言模型在道德基础理论方面也被发现存在道德偏差（Simmons,, 2022）（Graham等人,, 2013）; (Hendrycks等人, 2020a, )的研究表明，现有的语言模型在伦理判断方面具有潜力，但仍需要改进。此外，在GPT-4比对评估中，(Wang等人, 2023e, )发现了系统偏差。据观察，ChatGPT 对文化价值观也表现出一定程度的偏见（Cao 等人,, 2023）。 Wang 等人，2023a 还纳入了一个评估数据集，专门用于使用有针对性和无针对性的系统提示来衡量刻板印象偏差。所有这些伦理问题都可能引发严重风险，阻碍大语言模型的部署，并对社会产生深远的负面影响。

3.2.3 可信度

除了稳健性和道德之外，一些工作还关注其他可信度问题。³³3本节中的术语“可信度”是指不仅仅包含稳健性和道德的其他工作。在他们 2023 年的研究中，DecodingTrust，Wang 等人，2023a 对 GPT 模型（尤其是 GPT-3.5 和 GPT-4）中的可信度漏洞进行了多方面的探索。他们的评估超出了典型的可信度问题，包括八个关键方面：毒性、刻板印象偏见、对抗性和分布外稳健性、对抗性演示的稳健性、隐私、机器道德和公平性。 DecodingTrust 的调查采用了一系列新构建的场景、任务和指标。他们透露，虽然 GPT-4 在标准评估中经常表现出比 GPT-3.5 更高的可信度，但它同时更容易受到攻击。

在 Hagendorff 和 Fabi (2023) 的另一项研究中，评估了具有增强认知能力的大语言模型。他们发现这些模型可以避免常见的人类直觉和认知错误，展现出超理性的表现。通过认知反射测试和语义错觉实验，研究人员深入了解了大语言模型的心理方面。这种方法为评估以前可能未发现的模型偏差和道德问题提供了新的视角。

3.3 社会科学

社会科学涉及人类社会和个人行为的研究，包括经济学、社会学、政治学、法学等学科。评估大语言模型在社会科学中的表现对于学术研究、政策制定和社会问题解决具有重要意义。这些评估有助于提高社会科学模型的适用性和质量，增进对人类社会的理解，促进社会进步。

吴等人, 2023a评估了大语言模型在解决社会科学中的尺度和测量问题方面的潜在用途，发现大语言模型可以产生有关政治意识形态的有意义的响应，并显着改善文本即数据社会科学方法。

在计算社会科学（CSS）任务中，Ziems 等人, (2023) 提出了大语言模型在多个 CSS 任务上的综合评估。在分类任务中，大语言模型在事件论点提取、人物比喻、隐性仇恨和共情分类方面表现出最低的绝对性能，达到了 40% 以下的准确率。这些任务要么涉及复杂的结构（事件参数），要么涉及语义与大语言模型预训练中学到的语义不同的主观专家分类法。相反，大语言模型在错误信息、立场和情感分类方面取得了最佳表现。在生成任务方面，大语言模型给出的解释常常超越众包提供的黄金参考质量。综上所述，大语言模型虽然可以极大地增强传统CSS研究流程，但并不能完全取代它。

有些文章还评估了大语言模型在法律任务上的表现。大语言模型的零样本在法律案件判决总结方面表现一般。大语言模型存在句子和单词不完整、无意义句子合并以及信息不一致和幻觉等更严重的错误(Deroy 等人,, 2023)。研究结果表明，大语言模型需要进一步完善，以更好地服务于法律专家的判例总结。 Nay 等人, (2023) 表示，大语言模型，特别是在与提示性增强和正确的法律文本相结合时，可以表现得更好，但尚未达到专家税务律师的水平。

最后，在心理学领域，（Frank, 2023）采用跨学科的方法，汲取发展心理学和比较心理学的见解，探索评估大语言模型能力的替代方法。通过整合不同的视角，研究人员可以加深对认知本质的理解，有效利用大语言模型等先进技术的潜力，同时降低潜在风险。

总而言之，大语言模型的使用对个人处理社会科学相关任务有显着的好处，从而提高了工作效率。大语言模型的产出是提高生产力的宝贵资源。然而，重要的是要承认现有的大语言模型无法完全取代该领域的人类专业人员。

3.4 自然科学与工程

评估大语言模型在自然科学和工程领域的表现，有助于指导科学研究、技术开发和工程研究的应用和发展。

表四：基于数学、科学和工程三个方面的自然科学与工程任务评估摘要（按第一作者姓名排序）。

Reference	Mathematics	Science	Engineering
(Arora et al.,, 2023)	✓	✓
(Bubeck et al.,, 2023)	✓		✓
(Castro Nascimento and Pimentel,, 2023)		✓
(Collins et al.,, 2023)	✓
(Dao and Le,, 2023)	✓
(Guo et al.,, 2023)		✓
(Liu et al., 2023c, )			✓
(Pallagani et al.,, 2023)			✓
(Sridhara et al.,, 2023)			✓
(Valmeekam et al.,, 2022)			✓
(Valmeekam et al.,, 2023)			✓
(Wei et al.,, 2023)	✓
(Wu et al., 2023b, )	✓
(Yuan et al., 2023b, )	✓
(Zhuang et al.,, 2023)			✓

3.4.1数学

对于基本的数学问题，大多数大型语言模型都表现出熟练的加法和减法，并具有一定的乘法能力。然而，当涉及除法、指数、三角函数和对数函数时，他们面临挑战。另一方面，大语言模型表现出处理小数、负数和无理数的能力(Yuan 等人, 2023b, )。在性能方面，ChatGPT 和 GPT-4 显着优于其他模型，展示了它们在解决数学任务方面的优越性（Wei 等人,, 2023）。这两种模型在处理大数（大于 1e12）和复杂、冗长的数学查询时具有明显的优势。由于其卓越的除法和三角学能力、对无理数的正确理解以及一致的逐步计算，GPT-4 的性能优于 ChatGPT，准确率显着提高了 10 个百分点，相对误差降低了 50%。长表达。

当面对复杂且具有挑战性的数学问题时，大语言模型表现不佳。具体来说，GPT-3 表现出近乎随机的性能，而 GPT-3.5 表现出改进，GPT-4 表现最好（Arora 等人,, 2023）。尽管新模型取得了进步，但值得注意的是，与专家相比，峰值性能仍然相对较低，并且这些模型缺乏从事数学研究的能力(Bubeck 等人,, 2023). 代数运算和计算的具体任务继续对 GPT 提出挑战（Collins 等人,, 2023; Bubeck 等人,, 2023）。 GPT-4 在这些任务中表现不佳的主要原因是代数运算中的错误以及检索相关领域特定概念的困难。 Wu等人，2023b评估了GPT-4在困难的高中竞赛问题上的使用，GPT-4在一半的类别上达到了60%的准确率。中级代数和初级微积分只能以20%左右的低准确率解决。 ChatGPT 不擅长回答导数及其应用、Oxyz 空间微积分和空间几何等主题的问题（Dao 和 Le，2023）。道和乐，(2023)； Wei 等人 (2023) 表明，ChatGPT 的性能随着任务难度的增加而恶化：在识别级别正确回答了 83% 的问题，在理解级别正确回答了 62%，在应用级别正确回答了 27%，仅最高认知复杂度级别为 10%。鉴于这些知识水平较高的问题往往更加复杂，需要深入的理解和解决问题的能力，这样的结果是可以预料的。

这些结果表明，大语言模型的有效性很大程度上受到所遇到问题的复杂性的影响。这一发现对于能够成功处理这些具有挑战性的任务的优化人工智能系统的设计和开发具有重要意义。

3.4.2 普通科学

大语言模型在化学领域的应用还需要进一步完善。 Castro Nascimento 和 Pimentel（2023）提出了来自化学各个子领域的五个简单任务，以评估 ChatGPT 对主题的理解，准确度范围从 25% 到 100%。郭等人, (2023) 创建了一个包含 8 项实用化学任务的综合基准，旨在评估大语言模型（包括 GPT-4、GPT-3.5 和 Davinci-003）的性能）对于每项化学任务。根据实验结果，GPT-4 与其他两种模型相比表现出优越的性能。 (Arora 等人,, 2023) 表明大语言模型在物理问题上的表现比化学问题差，可能是因为在此设置下化学问题的推理复杂度低于物理问题。大语言模型在普通科学领域的评价研究还很有限，目前的研究结果表明大语言模型在该领域的表现还需要进一步改进。

3.4.3工程

在工程中，任务可以按难度升序进行组织，包括代码生成、软件工程和常识规划。

在代码生成任务中，为该任务训练的较小的大语言模型在性能上具有竞争力，CodeGen-16B (Nijkamp 等人,, 2022) 在性能上与使用较大参数设置的 ChatGPT 相当，达到约 78% 的匹配度(Liu 等人, 2023c, )。尽管在掌握和理解编程语言中的某些基本概念方面面临挑战，ChatGPT 仍展现出了值得称赞的编码水平（庄等人,, 2023）。具体来说，ChatGPT 在动态规划、贪心算法和搜索方面拥有出色的技能，超越了能力很强的大学生，但在数据结构、树和图论方面却表现不佳。 GPT-4 展示了基于给定指令生成代码、理解现有代码、推理代码执行、模拟指令的影响、用自然语言阐明结果以及有效执行伪代码的高级能力（Bubeck 等人，2023 ）。

在软件工程任务中，ChatGPT 通常表现良好并提供详细的响应，通常超过人类专家的输出和 SOTA 输出。然而，对于某些任务，例如代码漏洞检测和基于信息检索的测试优先级排序，当前版本的 ChatGPT 无法提供准确的答案，使其不适合这些特定任务（Sridhara 等人,, 2023）。

在常识性规划任务中，即使在人类擅长的简单规划任务中，大语言模型也可能表现不佳(Valmeekam 等人,, 2022, 2023)。 Pallagani 等人, (2023) 证明，经过微调的 CodeT5 (Wang 等人, 2021b, ) 在所有考虑的领域中表现最佳，推理时间最短。此外，还探讨了大语言模型的计划泛化能力，发现其泛化能力似乎有限。事实证明，大语言模型可以处理简单的工程任务，但在复杂的工程任务上表现不佳。

3.5 医疗应用

大语言模型在医学领域的应用近年来受到广泛关注。因此，本节旨在对致力于在医疗应用中实施大语言模型的持续努力进行全面回顾。我们将这些应用分为三个方面，如表V所示：医疗查询、医疗检查和医疗助理。对这些类别的详细研究将增强我们对大语言模型给医学领域带来的潜在影响和优势的理解。

3.5.1 医疗查询

大语言模型对医疗查询进行评估的意义在于提供准确可靠的医疗答案，满足医疗保健专业人员和患者对高质量医疗信息的需求。如表V所示，医学领域的大语言模型评估大部分集中在医学查询上。 ChatGPT 为各种医学查询生成了相对准确的信息，包括遗传学（Duong 和 Solomon,, 2023）、放射肿瘤物理（Holmes 等人,, 2023）、生物医学(Jahan 等人,, 2023)，以及许多其他医学学科(Samaan 等人,, 2023; Johnson 等人,, 2023; Hamidi 和 Roberts,, 2023)，证明其在医学查询领域有一定的功效。至于局限性，Thirunavukarasu 等人，(2023)评估了ChatGPT在初级保健方面的表现，发现其在学生综合评估中的平均分数低于及格分数，表明还有改进的空间。 Chervenak 等人 (2023) 强调，虽然 ChatGPT 可以生成与生育相关临床提示中现有来源类似的响应，但其在可靠引用来源方面的局限性以及伪造信息的潜力限制了其临床实用性。

表五：基于三个方面对医疗应用的评价总结：Med。询问，医学。屁股。（医疗助理）和医学。考试。（体检）（按第一作者姓名排序）。

Reference	Med. queries	Med. exam	Med. ass.
(Cascella et al.,, 2023)			✓
(Chervenak et al.,, 2023)	✓
(Duong and Solomon,, 2023)	✓
(Gilson et al.,, 2023)		✓
(Hamidi and Roberts,, 2023)	✓
(Holmes et al.,, 2023)	✓
(Jahan et al.,, 2023)	✓
(Johnson et al.,, 2023)	✓
(Khan et al.,, 2023)			✓
(Kung et al.,, 2023)		✓
(Lahat et al.,, 2023)			✓
(Lyu et al., 2023b, )			✓
(Oh et al.,, 2023)			✓
(Samaan et al.,, 2023)	✓
(Thirunavukarasu et al.,, 2023)	✓
(Wang et al., 2023i, )			✓

3.5.2体检

Gilson 等人的研究，(2023)； Kung等人(2023)通过美国医师执照考试(USMLE)评估大语言模型在体检评估中的表现⁴⁴4https://www.usmle.org/。在（Gilson 等人，2023）的研究中，ChatGPT 在回答 USMLE 第 1 步和第 2 步考试问题时的表现是使用新颖的多项选择题集进行评估的。结果表明，ChatGPT 在不同数据集上实现了不同的准确度。然而，与 NBME-Free-Step1 和 NBME-Free-Step2 数据集中的正确答案相比，上下文信息的存在率较低。 Kung 等人，(2023) 表明 ChatGPT 在这些考试中达到或接近通过门槛，无需定制训练。该模型表现出高度的一致性和洞察力，表明其在协助医学教育和临床决策方面的潜力。 ChatGPT 可用作回答医疗问题、提供解释和支持决策过程的工具。这为医学生和临床医生的教育和临床实践提供了额外的资源和支持。此外，Sharma 等人 (2023) 发现，与 Google 搜索结果相比，ChatGPT 生成的答案更具上下文感知能力，具有更好的演绎推理能力。

3.5.3 医疗助理

在医疗救助领域，大语言模型展示了潜在的应用前景，包括胃肠道疾病识别研究(Lahat 等人,, 2023)、痴呆诊断(Wang 等人, 2023i, )，加快评估 COVID-19 文献（Khan 等人，2023）及其在医疗保健方面的整体潜力（Cascella 等人，2023）。但也存在局限性和挑战，如缺乏原创性、投入要求高、资源有限、答案不确定、以及与误诊和患者隐私问题相关的潜在风险。

此外，多项研究评估了ChatGPT在医学教育领域的性能和可行性。在 Oh 等人 (2023) 的研究中，评估了 ChatGPT，特别是 GPT-3.5 和 GPT-4 模型对手术临床信息的理解及其对手术教育和治疗的潜在影响。训练。结果表明，GPT-3.5 的总体准确率为 46.8%，GPT-4 的总体准确率为 76.4%，这表明两个模型之间存在显着的性能差异。值得注意的是，GPT-4 在不同的亚专业中始终表现良好，这表明它有能力理解复杂的临床信息并增强外科教育和培训。 Lyu 等人，2023b 的另一项研究探讨了在临床教育中利用 ChatGPT 的可行性，特别是在将放射学报告翻译成易于理解的语言方面。研究结果表明，ChatGPT 可以有效地将放射学报告翻译成易于理解的语言，并提供一般性建议。此外，与 GPT-4 相比，ChatGPT 的质量也有所提高。这些研究结果表明，在临床教育中使用大语言模型是可行的，尽管需要进一步努力来解决局限性并释放其全部潜力。

3.6 代理应用程序

大语言模型不只专注于一般语言任务，它可以用作各个领域的强大工具。为大语言模型配备外部工具可以极大地扩展模型的功能。黄等人，2023a介绍了KOSMOS-1，它能够理解一般模式、遵循指令并根据上下文进行学习。 MRKL Karpas 等人, (2022) 的研究强调了理解何时以及如何利用外部符号工具的重要性，因为这种知识依赖于大语言模型的能力，特别是当这些工具可以可靠地执行功能。此外，另外两项研究 Toolformer (Schick 等人,, 2023) 和 TALM (Parisi 等人,, 2022) 探索了利用工具来增强语言模型。 Toolformer 采用训练方法来确定特定 API 的最佳使用方式，并将获得的结果集成到后续的词符预测中。另一方面，TALM 将难以区分的工具与基于文本的方法相结合，以增强语言模型，并采用一种称为“自我游戏”的迭代技术，以最少的工具演示为指导。此外，（沉等人，2023）提出了HuggingGPT框架，利用大语言模型连接机器学习社区内的各种AI模型（例如Hugging Face），旨在解决AI任务。

3.7 其他应用

除了上述类别外，大语言模型在其他领域也有评价，包括教育、搜索推荐、性格测试、具体应用等。

3.7.1教育

大语言模型已显示出彻底改变教育领域的希望。他们有潜力在多个领域做出重大贡献，例如帮助学生提高写作技能、促进更好地理解复杂概念、加快信息传递以及提供个性化反馈以提高学生参与度。这些应用程序旨在创造更高效和交互式的学习体验，为学生提供更广泛的教育机会。然而，要充分发挥大语言模型在教育领域的潜力，还需要广泛的研究和不断的完善。

对教育援助大语言模型的评估旨在调查和评估其对教育领域的潜在贡献。这种评估可以从不同的角度进行。根据 Dai 等人，2023b 的说法，ChatGPT 展示了生成详细、流畅和连贯反馈的能力，超越了人类教师。它可以准确评估学生作业并提供任务完成情况的反馈，从而帮助学生技能的发展。然而，ChatGPT 的回应可能缺乏关于教学改进的新颖性或富有洞察力的观点（Wang 和 Demszky，2023）。此外，Hellas 等人, (2023) 的研究显示，大语言模型可以成功识别学生代码中至少一个实际问题，尽管也观察到误判的情况。总之，尽管在熟练掌握输出格式方面仍然存在挑战，但大语言模型的使用在解决程序逻辑问题方面显示出了前景。值得注意的是，虽然这些模型可以提供有价值的见解，但它们仍然可能会产生类似于学生所犯的错误。

在教育测试中，研究人员旨在评估大语言模型的应用效果，包括自动评分、问题生成和学习指导。 de Winter（2023）表明，ChatGPT 的平均正确率达到 71.8%，与所有参与学生的平均分数相当。随后使用GPT-4进行评估，得分为8.33。此外，该评估还显示了利用通过“温度”参数结合随机性的引导来诊断错误答案的有效性。 Zhang 等人，2023b 声称 GPT-3.5 可以解决 MIT 数学和 EECS 考试，而 GPT-4 表现更好。然而，事实证明这是不公平的，因为他们不小心输入了提示的正确答案。

表六：基于四个方面对其他应用的评估总结：Edu。（教育），海。 & 推荐。（搜索和推荐），个人。测试。（性格测试）和具体应用（按第一作者姓名排序）。

Reference	Edu.	Sea. & Rec.	Pers. Test.	Specific applications
(Bodroza et al.,, 2023)			✓
(Dai et al., 2023b, )	✓
(de Winter,, 2023)	✓
(Dai et al., 2023a, )		✓
(Fan et al.,, 2023)		✓
(Hellas et al.,, 2023)	✓
(Jentzsch and Kersting,, 2023)			✓
(Lanzi and Loiacono,, 2023)				✓
(Le and Zhang,, 2023)				✓
(Sun et al.,, 2023)		✓
(Song et al.,, 2023)			✓
(Safdari et al.,, 2023)			✓
(Thakur et al.,, 2021)		✓
(Wang and Demszky,, 2023)	✓
(Wang et al., 2023f, )			✓
(Wang et al., 2023h, )				✓
(Xu et al., 2023c, )		✓
(Zhang et al., 2023a, )		✓

3.7.2 搜索与推荐

大语言模型在搜索和推荐方面的评估大致可分为两个方面。首先，在信息检索领域,Sun等人, (2023)研究了生成排序算法（例如ChatGPT和GPT-4）对于信息检索任务的有效性。实验结果表明，引导式 ChatGPT 和 GPT-4 在流行的基准测试中表现出有竞争力的性能，甚至优于监督方法。此外，将 ChatGPT 的排名功能提取到专用模型中，在使用 10K ChatGPT 生成的数据进行训练时，与在 BEIR 数据集中的 400K 带注释的 MS MARCO 数据上进行训练相比，表现出了卓越的性能(Thakur 等人,, 2021)。此外，Xu等人，2023c进行了一项随机在线实验，以调查用户在使用搜索引擎和聊天机器人工具执行信息检索任务时的行为差异。参与者被分为两组：一组使用类似于 ChatGPT 的工具，另一组使用类似于 Google 搜索的工具。结果表明，ChatGPT 组在所有任务上花费的时间较少，并且这两组之间的差异并不显着。

其次，转向推荐系统领域，大语言模型已成为重要组成部分，利用其自然语言处理能力来理解用户偏好、项目描述和上下文信息（范等人，，2023）。通过将大语言模型融入推荐流程中，这些系统可以提供更准确和个性化的推荐，从而提高用户体验和整体推荐质量。然而，解决使用大语言模型进行推荐相关的潜在风险至关重要。 Zhang 等人，2023a 最近的研究强调了 ChatGPT 生成的不公平推荐问题。这强调了在推荐场景中使用大语言模型时评估公平性的重要性。 (Dai 等人, 2023a, ) 表明 ChatGPT 在推荐系统中表现出强大的性能。发现使用列表排序可以在成本和性能之间取得最佳平衡。此外，ChatGPT 在解决冷启动问题和提供可解释的建议方面表现出了希望。此外，(Yuan 等人, 2023a, ; Li 等人, 2023b, )的研究证明了基于模态的推荐模型（MoRec）和基于文本的协同过滤（TCF）的巨大潜力在推荐系统中。

3.7.3 性格测试

人格测试旨在衡量个体的人格特征和行为倾向，大语言模型作为强大的自然语言处理模型已广泛应用于此类任务。

（Bodroza 等人，2023）进行的研究调查了使用 Davinci-003 作为聊天机器人的人格特征，发现其答案的一致性存在差异，尽管表现出亲社会特征。然而，聊天机器人的反应是由有意识的自我反思还是算法过程驱动仍然存在不确定性。 Song等人, (2023)研究了语言模型中人格的表现，发现许多模型在自我评估测试中表现不可靠，并表现出固有的偏差。因此，有必要开发特定的机器特性测量工具来增强可靠性。这些研究为更好地理解人格测试中的大语言模型提供了重要的见解。 Safdari等人，(2023)提出了一种综合方法，对大语言模型生成的文本中的人格特征进行有效的心理测量。为了评估大语言模型的情商，(王等人, 2023f, )开发了一种新的心理测量评估方法。作者参考了超过500名成年人构建的框架，测试了各种主流的大语言模型。结果显示，大多数大语言模型的情商（EQ）得分高于平均水平，其中 GPT-4 得分为 117，超过了 89% 的人类参与者。然而，多变量模式分析表明，某些大语言模型无需依赖类似于人类的机制即可实现人类水平的性能。与人类相比，他们的表征模式质量存在明显差异，这一点显而易见。 Jentzsch 和 Kersting（2023）讨论了将幽默融入大语言模型（特别是 ChatGPT）中的挑战。他们发现，虽然 ChatGPT 在 NLP 任务中表现出令人印象深刻的能力，但它在产生幽默反应方面存在不足。这项研究强调了幽默在人类交流中的重要性，以及大语言模型在捕捉幽默的微妙性和语境依赖性方面所面临的困难。它讨论了当前方法的局限性，并强调需要进一步研究来开发更复杂的模型，以有效地理解和产生幽默。

3.7.4具体应用

此外，人们还开展了各种研究工作来探索大语言模型在广泛任务中的应用和评估，例如游戏设计（Lanzi和Loiacono，2023）、模型性能评估 (Wang 等人, 2023h, )、日志解析 (Le and Zhu, 2023). 总的来说，这些发现增强了我们对在不同任务中使用大语言模型相关的实际意义的理解。他们揭示了这些模型的潜力和局限性，同时为性能改进提供了宝贵的见解。

4 评估地点：数据集和基准

表七：现有大语言模型评估基准总结（按第一作者姓名排序）。

Benchmark	Focus	Domain	Evaluation Criteria
SOCKET (Choi et al.,, 2023)	Social knowledge	Specific downstream task	Social language understanding
MME (Fu et al., 2023a, )	Multimodal LLMs	General language task	Ability of perception and cognition
Xiezhi (Gu et al.,, 2023)	Comprehensive domain knowledge	General language task	Overall performance across multiple benchmarks
CUAD (Hendrycks et al., 2021b, )	Legal contract review	Specific downstream task	Legal contract understanding
TRUSTGPT (Huang et al., 2023c, )	Ethic	Specific downstream task	Toxicity, bias, and value-alignment
MMLU (Hendrycks et al., 2020b, )	Text models	General language task	Multitask accuracy
MATH (Hendrycks et al., 2021c, )	Mathematical problem	Specific downstream task	Mathematical ability
APPS (Hendrycks et al., 2021a, )	Coding challenge competence	Specific downstream task	Code generation ability
C-Eval (Huang et al., 2023b, )	Chinese evaluation	General language task	52 Exams in a Chinese context
OpenLLM (HuggingFace,, 2023)	Chatbots	General language task	Leaderboard rankings
DynaBench (Kiela et al.,, 2021)	Dynamic evaluation	General language task	NLI, QA, sentiment, and hate speech
Chatbot Arena (LMSYS,, 2023)	Chat assistants	General language task	Crowdsourcing and Elo rating system
AlpacaEval (Li et al., 2023d, )	Automated evaluation	General language task	Metrics, robustness, and diversity
HELM (Liang et al.,, 2022)	Transparency of language models	General language task	Multi-metric
API-Bank (Li et al., 2023a, )	Tool utilization	Specific downstream task	API call, retrieval, and planning
M3KE (Liu et al., 2023a, )	Multi-task	General language task	Multi-task accuracy
ARB (Sawada et al.,, 2023)	Advanced reasoning ability	Specific downstream task	Multidomain advanced reasoning ability
Big-Bench (Srivastava et al.,, 2022)	Capabilities and limitations of LMs	General language task	Model performance and calibration
MultiMedQA (Singhal et al.,, 2022)	Medical QA	Specific downstream task	Model performance, medical knowledge, and reasoning ability
CVALUES (Xu et al., 2023b, )	Safety and responsibility	Specific downstream task	Alignment ability of LLMs
ToolBench (ToolBench,, 2023)	Software tools	Specific downstream task	Execution success rate
PandaLM (Wang et al., 2023h, )	Instruction tuning	General language task	Winrate judged by PandaLM
GLUE-X (Yang et al.,, 2022)	OOD robustness for NLU tasks	General language task	OOD robustness
KoLA (Yu et al.,, 2023)	Knowledge-oriented evaluation	General language task	Self-contrast metrics
AGIEval (Zhong et al.,, 2023)	Human-centered foundational models	General language task	General
PromptBench (Zhu et al.,, 2023)	Adversarial prompt resilience	General language task	Adversarial robustness
MT-Bench (Zheng et al.,, 2023)	Multi-turn conversation	General language task	Winrate judged by GPT-4
M3Exam (Zhang et al., 2023c, )	Human exams	Specific downstream task	Task-specific metrics
GAOKAO-Bench (Zhang et al., 2023e, )	Chinese Gaokao examination	Specific downstream task	Accuracy and scoring rate

大语言模型评估数据集用于测试和比较不同语言模型在各种任务上的性能，如第 2 节所述。 3。这些数据集，例如 GLUE (Wang 等人,, 2018) 和 SuperGLUE (Wang 等人,, 2019)，旨在模拟现实世界的语言处理场景并涵盖文本分类、机器翻译、阅读理解和对话生成等各种任务。本节不会讨论任何单个语言模型数据集，而是讨论大语言模型的基准。

随着大语言模型基准的不断发展，出现了各种评估其性能的基准。在本研究中，我们精选了 28 个流行的基准测试，如表VII所示。⁵⁵5请注意，由于大语言模型的评估是一个热门研究领域，我们很可能无法覆盖所有基准。我们欢迎提出建议和意见，以使此列表更加完善。每个基准都侧重于不同的方面和评估标准，为各自的领域提供了宝贵的贡献。为了更好地总结，我们将这些基准分为两类：通用语言任务的基准和特定下游任务的基准。

4.1 一般任务的基准

大语言模型旨在解决绝大多数任务。为此，现有的基准测试倾向于评估不同任务中的性能。

Chatbot Arena (LMSYS, 2023) 和 MT-Bench (Zheng 等人,, 2023) 是两个重要的基准，有助于评估和改进聊天机器人模型和大不同语境下的语言模型。 Chatbot Arena 提供了一个通过用户参与和投票来评估和比较不同聊天机器人模型的平台。用户可以与匿名模型互动并通过投票表达他们的偏好。该平台收集了大量的选票，有助于评估模型在现实场景中的性能。 Chatbot Arena 提供了有关聊天机器人模型的优点和局限性的宝贵见解，从而有助于聊天机器人研究和进步的进步。

同时，MT-Bench 使用针对处理对话而定制的综合问题来评估多轮对话的大语言模型。它提供了一套全面的问题，专门用于评估模型处理多轮对话的能力。 MT-Bench 拥有几个区别于传统评估方法的显着特征。值得注意的是，它擅长模拟代表现实世界环境的对话场景，从而有助于更精确地评估模型的实际性能。此外，MT-Bench 有效克服了传统评估方法的局限性，特别是在衡量模型处理复杂的多轮对话查询的能力方面。

HELM (Liang 等人,, 2022) 不关注特定任务和评估指标，而是提供对大语言模型的全面评估。它跨多个方面评估语言模型，例如语言理解、生成、连贯性、上下文敏感性、常识推理和特定领域知识。 HELM 旨在全面评估不同任务和领域的语言模型的性能。此外，Xiezhi (Gu 等人,, 2023) 提出了一套用于评估不同学科领域大规模语言模型知识水平的综合套件。通过协智进行的评估使研究人员能够理解这些模型固有的显着局限性，并有助于更深入地理解它们在不同领域的能力。为了评估超出其现有能力的语言模型，Big-Bench (Srivastava 等人,, 2022) 引入了来自 132 个机构的 450 位作者贡献的 204 个具有挑战性的任务的多样化集合。这些任务涵盖数学、儿童发展、语言学、生物学、常识推理、社会偏见、物理、软件开发等各个领域。此外，MME (Fu 等人, 2023a, )作为专门为多模态大语言模型（MLLM）设计的广泛评估基准，旨在评估他们的感知和认知能力。 MME 采用精心设计的指令-答案对以及简洁的指令设计，从而保证公平的评估条件。

KoLA (Yu 等人,, 2023)是一个面向知识的大语言模型评估基准，专门用于评估大语言模型的语言理解和推理能力。它强调语义知识的理解和运用以及推理。 KoLA 是研究人员评估大语言模型理解和推理深度的重要平台，从而推动语言理解模型的进步。为了允许对语言任务进行众包评估，DynaBench (Kiela 等人,, 2021) 旨在进行动态基准测试。它探索了令人兴奋的新研究方向，例如循环内集成的影响、分布变化的特征、探索注释器效率、研究专家注释器的影响以及增强模型针对交互式环境中的有针对性的对抗性攻击的鲁棒性。此外，它还有助于推进动态数据收集的研究并在一般人机交互领域进行跨任务分析。 (刘等人, 2023a, )

用于评估大语言模型不同任务的标准化基准的开发一直是一个重要的研究热点。 MMLU (Hendrycks 等人, 2020b, ) 提供了一套全面的测试，用于评估多任务上下文中的文本模型。 AlpacaEval (Li 等人, 2023d, ) 是一个自动化评估基准，重点评估大语言模型在各种自然语言处理任务中的性能。它提供了一系列指标、稳健性度量和多样性评估来衡量大语言模型的能力。 AlpacaEval 为推进不同领域的大语言模型并促进对其性能的更深入理解做出了重大贡献。此外，AGIEval, (Zhong 等人,, 2023) 是一个专门的评估框架，用于评估基础模型在以人为中心的标准化考试领域的表现。此外，OpenLLM(HuggingFace, 2023)作为评估基准，提供了一个公共竞赛平台，用于比较和评估不同大语言模型模型在各种任务上的表现。它鼓励研究人员提交模型并在不同的任务上进行竞争，推动大语言模型研究领域的进步和竞争。

对于超出标准性能的任务，有针对 OOD、对抗鲁棒性和微调而设计的基准。 GLUE-X (Yang 等人,, 2022) 是创建统一基准的新颖尝试，旨在评估 NLP 模型在 OOD 场景中的稳健性。该基准强调了 NLP 中鲁棒性的重要性，并提供了测量和增强模型鲁棒性的见解。 PromptBench (Zhu 等人,, 2023)集中讨论了即时工程在大语言模型微调中的重要性。它提供了一个标准化的评估框架来比较不同的即时工程技术并评估它们对模型性能的影响。 PromptBench有利于大语言模型微调方法的增强和优化。为了确保评估的公正性和公平性，引入了PandaLM (Wang 等人, 2023h, )作为一种判别性大规模语言模型，专门用于通过训练区分多个高熟练度大语言模型。与主要强调客观正确性的传统评估数据集相比，PandaLM 融入了关键的主观要素，包括相对简洁、清晰、遵守指示、全面性和形式。

4.2 特定下游任务的基准

除了一般任务的基准之外，还存在专门为某些下游任务设计的基准。

MultiMedQA (Singhal 等人,, 2022) 是一个医学 QA 基准，专注于医学检查、医学研究和消费者医疗保健问题。它由七个与医学 QA 相关的数据集组成，其中包括六个现有数据集和一个新数据集。该基准的目标是评估大语言模型在临床知识和QA能力方面的表现。为了评估大语言模型在跨多个领域的高级推理任务中的性能，引入了 ARB (Sawada 等人,, 2023)。此外，TRUSTGPT (Huang 等人, 2023c, ) 是专门为解决大语言模型背景下的伦理考虑而定制的，特别关注毒性、偏见和价值一致性。

其他具体基准如 C-Eval (Huang 等人, 2023b, )，这是第一个评估中文基础模型的高级知识和推理能力的广泛基准。 M3Exam(张等人, 2023c, )提供了独特且全面的评估框架，融合了多种语言、多种模式、多种级别，以测试大语言模型在不同上下文中的通用能力。此外，GAOKAO-Bench (Zhang 等人, 2023e, ) 提供了一个综合评估基准，利用来自中国高考的问题来衡量大型语言模型在复杂和特定上下文任务中的熟练程度。另一方面，SOCKET (Choi 等人,, 2023) 作为 NLP 基准，旨在评估大语言模型在学习和识别社会知识概念方面的表现。它由多项任务和案例研究组成，以评估大语言模型在社交能力方面的局限性。 MATH (Hendrycks 等人, 2021c, ) 专注于评估数学领域内人工智能模型的推理和解决问题的能力。 APPS (Hendrycks 等人, 2021a, ) 是一个更全面、更严格的评估代码生成的基准，衡量语言模型根据自然语言规范生成 python 代码的能力。 CUAD (Hendrycks 等人, 2021b, ) 是一个专家注释的、特定领域的法律合同审查数据集，它提供了具有挑战性的研究基准，并具有增强深度学习模型在合同理解任务中的性能的潜力。 CVALUES (Xu 等人, 2023b, )引入人文评估基准来评估大语言模型与安全和责任标准的一致性。

除了现有的评估基准之外，在评估大语言模型工具的有效性方面还存在研究空白。为了弥补这一差距，引入了 API-Bank 基准(Li 等人, 2023a, )，作为第一个专门为工具增强大语言模型设计的基准。它包含一个全面的工具增强大语言模型工作流程，包含 53 个常用 API 工具和 264 个带注释的对话，总共包含 568 个 API 调用。此外，ToolBench 项目（ToolBench，2023）旨在支持大型语言模型的开发，以有效利用通用工具的功能。通过提供创建优化指令数据集的平台，ToolBench 项目旨在推动语言模型的进步并增强其实际应用。

5 如何评估

本节我们介绍两种常见的评估方法：自动评估和人工评估。事实上，“如何评价”的分类也并不明确。我们的分类是基于评估标准是否可以自动计算。如果可以自动计算，我们将其归类为自动评估；否则，就属于人评价。

表八：新大语言模型评估协议摘要。

Method	References
Human-in-the-loop	AdaVision (Gao et al.,, 2022), AdaTest (Ribeiro and Lundberg,, 2022)
Crowd-sourcing testing	DynaBench (Kiela et al.,, 2021), DynaBoard (Ma et al.,, 2021), DynamicTempLAMA (Margatina et al.,, 2023), DynaTask (Thrush et al.,, 2022)
More challenging tests	HELM (Liang et al.,, 2022), AdaFilter (Phang et al.,, 2021), CheckList (Ribeiro et al.,, 2020), Big-Bench (Srivastava et al.,, 2022), DeepTest (Tian et al.,, 2018)

5.1 自动评估

大语言模型的自动化评估是一种常见的，也许是最流行的评估方法，通常使用标准的度量或指标以及评估工具来评估模型的性能，例如准确性，BLEU（Papineni等人，，2002）、ROUGE (Lin,, 2004)、BERTScore (Zhang 等人,, 2019)，仅举几例。例如，我们可以使用 BLEU 分数来量化机器翻译任务中模型生成的文本与参考文本之间的相似性和质量。事实上，大多数现有的评估工作都采用这种评估协议，因为它具有主观性、自动计算和简单性。因此，大多数确定性任务，例如自然语言理解和数学问题，通常采用这种评估协议。

与人工评估相比，自动评估不需要人工密集参与，节省了成本和时间。例如，(Qin 等人,, 2023) 和 Bang 等人, (2023) 都使用自动化评估方法来评估大量任务。近年来，随着大语言模型的发展，也设计了一些先进的自动评估技术来帮助评估。 Lin and Chen，(2023)提出了LLM-EVAL，一种利用大语言模型进行开放域对话的统一多维自动评估方法。 PandaLM (Wang 等人, 2023h, ) 通过训练一个大语言模型作为评估不同模型的“法官”，可以实现可重复的、自动化的语言模型评估。 Jain 等人 (2023) 提出了一种自我监督的评估框架，通过消除对新数据进行繁琐的标记的需要，实现了在现实部署环境中更有效地评估模型的形式。

由于自动评估论文体量较大，我们就不详细介绍了。自动评估的原理其实和其他AI模型评估过程是一样的：我们只是用一些标准指标来计算这些指标下的某些值，作为模型性能的指标。

5.2 人类评估

大语言模型日益增强的能力无疑已经超越了一般自然语言任务的标准评估指标。因此，在一些不适合自动评估的非标准情况下，人工评估成为自然的选择。例如，在嵌入式相似性指标（例如 BERTScore）不够的开放生成任务中，人工评估更可靠（Novikova 等人,, 2017）。虽然某些生成任务可以采用某些自动评估协议，但这些任务中的人工评估更有利，因为生成总是比标准答案更好。

大语言模型人工评价是一种通过人类参与来评价模型生成结果的质量和准确性的方法。与自动评估相比，人工评估更贴近实际应用场景，能够提供更全面、更准确的反馈。在大语言模型的人工评估中，通常会邀请评估者（如专家、研究人员或普通用户）对模型生成的结果进行评估。例如，Ziems 等人，(2023)使用专家的注释进行生成。通过人工评估，（Liang 等人，2022）在 6 个模型上对摘要和虚假信息场景进行了人工评估，Bang 等人，（2023）评估了类比推理任务。 Bubeck 等人 (2023) 的开创性评估工作使用 GPT-4 进行了一系列人工测试，他们发现 GPT-4 在多项任务上的表现接近甚至超过了人类的表现。这种评估需要人类评估者实际测试和比较模型的性能，而不仅仅是通过自动化评估指标来评估模型。请注意，即使是人类的评估也可能具有很高的方差和不稳定性，这可能是由于文化和个体差异（Peng 等人,, 1997）。在实际应用中，这两种评价方法要结合实际情况进行考虑和权衡。

6 摘要

在本节中，我们根据 3、4 和 5 节中的回顾总结了主要发现。

首先，我们想强调的是，尽管付出了所有努力来总结现有的评估工作，但没有没有证据明确表明某个评估协议或基准是最有用和最成功的，但具有不同的特征和侧重点。这也表明，没有一个模型可以在所有类型的任务中表现最好。这项调查的目的不仅仅是确定“最佳”基准或评估协议。通过对大语言模型评估现有工作的总结和分析，我们可以识别当前大语言模型的成功和失败案例，得出评估方案的新趋势，最重要的是，为未来的研究提出新的挑战和机遇。

6.1 任务：大语言模型成功与失败案例

现在我们总结一下大语言模型在不同任务中的成功和失败案例。请注意，以下所有结论都是基于现有的评估工作得出的，结果仅取决于特定的数据集。

6.1.1大语言模型能做什么？

•

大语言模型通过产生流畅、精确的语言表达来展示生成文本的熟练程度。
•

大语言模型在涉及语言理解的任务中取得了令人印象深刻的表现，例如情感分析和文本分类。
•

大语言模型表现出强大的上下文理解能力，使它们能够生成与给定输入相符的连贯响应。
•

大语言模型在机器翻译、文本生成和问答等多个自然语言处理任务中取得了令人满意的性能。

6.1.2大语言模型什么时候会失败？

•

大语言模型在生成过程中可能会出现偏差和不准确，导致产生有偏差的输出。
•

大语言模型理解复杂逻辑和推理任务的能力有限，经常在复杂的上下文中感到困惑或出错。
•

大语言模型在处理大量数据集和长期记忆方面面临限制，这可能会给处理冗长的文本和涉及长期依赖的任务带来挑战。
•

大语言模型在整合实时或动态信息方面存在局限性，使其不太适合需要最新知识或快速适应不断变化的环境的任务。
•

大语言模型对提示特别是对抗性提示很敏感，这会触发新的评估和算法以提高其鲁棒性。
•

在文本摘要领域，据观察，大语言模型可能在特定评估指标上表现不佳，这可能归因于这些特定指标的固有局限性或不足。
•

大语言模型在反事实任务中没有取得令人满意的表现。

6.2 基准和评估协议

随着大语言模型的快速发展和广泛使用，对其在实际应用和研究中的评估变得至关重要。这个评估过程不仅应该包括任务层面的评估，还应该包括从社会角度深入了解它们带来的潜在风险。在本节中，我们在表VIII中总结了现有的基准测试和评估协议。

首先，从客观计算转向人机交互测试，从而在评估过程中获得更多的人为反馈。 AdaVision (Gao 等人,, 2022)是一种用于测试视觉模型的交互式流程，使用户能够标记少量数据以确保模型的正确性，从而帮助用户识别和修复一致的故障模式。在 AdaTest （Ribeiro 和 Lundberg，2022）中，用户通过仅选择高质量测试并将其组织成语义相关的主题来过滤测试样本。

其次，从静态测试集到众包测试集的转变变得越来越普遍。 DynaBench (Kiela 等人,,, 2021)、DynaBoard (Ma 等人,, 2021) 和 DynaTask (Thrush 等人,, 2022) 依靠众包来创建和测试硬样本。此外，DynamicTempLAMA (Margatina 等人,, 2023) 允许动态构建与时间相关的测试。

第三，评估机器学习模型从统一环境转变为具有挑战性的环境。虽然统一设置涉及对任何特定任务没有偏好的测试集，但具有挑战性的设置会为特定任务创建测试集。像 DeepTest (Tian 等人,, 2018) 这样的工具使用种子来生成用于测试的输入转换，CheckList (Ribeiro 等人,, 2020) 基于模板构建测试集，和 AdaFilter (Phang 等人,, 2021) 对抗性地构造测试。然而，值得注意的是，AdaFilter 可能并不完全公平，因为它依赖于对抗性示例。 HELM (Liang 等人,, 2022)从不同方面评估大语言模型，而Big-Bench (Srivastava 等人,, 2022)平台用于硬设计机器学习模型要解决的任务。 PromptBench (Zhu 等人,, 2023)旨在通过创建对抗性提示来评估大语言模型的对抗性鲁棒性，该方法更具挑战性，结果表明当前大语言模型对对抗性提示不具有鲁棒性。

7 未来研究的巨大挑战和机遇

评估作为一门新学科：我们的总结启发我们重新设计大语言模型时代评价相关的各个方面。在本节中，我们提出了几个重大挑战。我们的关键点是，评估应被视为推动大语言模型和其他人工智能模型成功的基本学科。现有的协议不足以全面评估大语言模型的真实能力，这对大语言模型评估的未来研究提出了巨大的挑战，也引发了新的机遇。

7.1 设计 AGI 基准

正如我们之前讨论的，虽然所有任务都可以作为大语言模型的评估工具，但问题是哪些任务可以真正衡量 AGI 能力。当我们期望大语言模型能够展示AGI能力时，全面理解人类和AGI能力之间的差异对于创建AGI基准至关重要。流行趋势似乎将 AGI 概念化为超人实体，从而利用教育、心理学和社会科学等领域的跨学科知识来设计创新基准。尽管如此，仍然存在大量未解决的问题。例如，使用人类价值观作为测试构建的起点是否有意义，或者是否应该考虑其他观点？开发合适的 AGI 基准的过程提出了许多需要进一步探索的悬而未决的问题。

7.2 完整的行为评估

一个想法AGI评估不仅应该包含常见任务的标准基准，还应该包含对开放任务（例如完整的行为测试）的评估。通过行为测试，我们的意思是 AGI 模型也应该在开放环境中进行评估。例如，通过将大语言模型作为中央控制器，我们可以对大语言模型操纵的机器人进行评估，以测试其在真实情况下的行为。将大语言模型视为完全智能机器，还应考虑其多模态维度的评估。事实上，完整的行为评估是对标准 AGI 基准的补充，它们应该协同工作以实现更好的测试。

7.3 稳健性评估

除了一般任务之外，鉴于大语言模型广泛融入日常生活，因此保持针对各种输入的鲁棒性至关重要，以便为最终用户提供最佳性能。例如，相同的提示但具有不同的语法和表达可能会导致ChatGPT和其他大语言模型产生不同的结果，这表明当前的大语言模型对输入的鲁棒性不强。虽然鲁棒性评估方面已有一些工作（Wang 等人，2023c，; Zhu 等人，2023），但还有很大的进步空间，例如包含更多样的评估集、检查更多的评估方面，并开发更有效的评估以生成鲁棒性任务。同时，稳健性的概念和定义也在不断发展。因此，考虑更新评估系统以更好地符合与道德和偏见相关的新要求至关重要。

7.4 动态和演变的评估

大多数人工智能任务的现有评估协议依赖于静态和公共基准，即评估数据集和协议通常是公开的。虽然这有利于社区内快速便捷的评估，但鉴于大语言模型的快速发展，无法准确评估其不断发展的能力。大语言模型的能力可能会随着时间的推移而增强，而现有的静态基准无法一致地评估这一点。另一方面，随着大语言模型随着模型规模和训练集规模的增大而变得越来越强大，大语言模型可能会记住静态和公共基准，从而导致潜在的训练数据污染。因此，开发动态的、不断演化的评价体系是提供大语言模型公正评价的关键。

7.5 有原则、值得信赖的评估

在引入评估体系时，确定其完整性和可信度至关重要。因此，可信计算的必要性也延伸到了对可靠评估系统的需求。这提出了一个具有挑战性的研究问题，与测量理论、概率和许多其他领域交织在一起。例如，我们如何确保动态测试真正生成分布外的示例？该领域的研究很少，希望未来的工作不仅要仔细检查算法，还要仔细检查评估系统本身。

7.6 支持所有大语言模型任务的统一评估

大语言模型的研究领域还有很多，我们需要开发能够支持价值对齐、安全性、验证性、跨学科研究、微调等各种任务的评价体系。例如，PandaLM (Wang 等人, 2023h, )是一个辅助大语言模型微调的评估系统，通过提供开源的评估模型，可以自动评估微调的性能。我们期望更多的评估系统变得更加通用，可以作为某些大语言模型任务的辅助。

7.7 超越评估：大语言模型增强

归根结底，评价不是最终目标，而是起点。评估之后，毫无疑问可以得出关于性能、鲁棒性、稳定性和其他因素的结论。一个成熟的评估体系不仅应该提供基准结果，还应该为未来的研究和开发提供富有洞察力的分析、建议和指导。例如，PromptBench (Zhu 等人,, 2023)不仅提供了对抗性提示的稳健性评估结果，还通过注意力可视化进行了全面分析，阐明了对抗性文本如何导致错误响应。该系统还提供词频分析，以识别测试集中的鲁棒词和非鲁棒词，从而为最终用户提供及时的工程指导。后续研究可以利用这些发现来增强大语言模型。另一个例子是Wang等人，2023g首先探索了大型视觉语言模型在不平衡（长尾）任务上的性能，这表明了当前大型模型的局限性。然后，他们探索了不同的方法来提高这些任务的性能。综上所述，评估后的增强有助于建立更好的大语言模型，未来可以做很多事情。

8结论

评估具有深远的意义，对于人工智能模型的进步至关重要，特别是在大型语言模型的背景下。本文首次从评估什么、如何评估、在哪里评估三个方面对大语言模型的评估进行了全面的概述。通过封装评估任务、协议和基准，我们的目的是增强对大语言模型现状的理解，阐明其优势和局限性，并为未来大语言模型的发展提供见解。

我们的调查表明，当前的大语言模型在许多任务中表现出一定的局限性，特别是推理和鲁棒性任务。与此同时，当代评估系统的适应和发展的需求仍然明显，以确保准确评估大语言模型的固有能力和局限性。我们确定了未来研究应该解决的几个重大挑战，希望大语言模型能够逐步增强对人类的服务。

免责声明

本文的目的主要是总结和讨论现有的大型语言模型评估工作。每篇论文中的结果和结论都是相应作者的原创贡献，特别是针对道德和偏见方面的潜在问题。本文可能会讨论大语言模型的一些副作用，唯一的目的是促进对大语言模型的更好理解。

此外，由于大语言模型的发展，尤其是Claude和ChatGPT等在线服务，它们很可能变得更强大，并且本文中描述的一些局限性得到缓解（并且可能会出现新的局限性）。我们鼓励感兴趣的读者将本次调查作为未来研究的参考，并在进行评估时在当前系统中进行真实的实验。

最后，大语言模型的评估在不断发展，因此我们可能会错过一些新的论文或基准。我们欢迎所有建设性的反馈和建议，以帮助改进这项调查。

参考

Abdelali et al., (2023) Abdelali, A., Mubarak, H., Chowdhury, S. A., Hasanain, M., Mousi, B., Boughorbel, S., Kheir, Y. E., Izham, D., Dalvi, F., Hawasly, M., et al. (2023). Benchmarking arabic ai with large language models. arXiv preprint arXiv:2305.14982.
Ahuja et al., (2023) Ahuja, K., Hada, R., Ochieng, M., Jain, P., Diddee, H., Maina, S., Ganu, T., Segal, S., Axmed, M., Bali, K., et al. (2023). Mega: Multilingual evaluation of generative ai. arXiv preprint arXiv:2303.12528.
Arora et al., (2023) Arora, D., Singh, H. G., et al. (2023). Have llms advanced enough? a challenging problem solving benchmark for large language models. arXiv preprint arXiv:2305.15074.
Bai et al., (2023) Bai, Y., Ying, J., Cao, Y., Lv, X., He, Y., Wang, X., Yu, J., Zeng, K., Xiao, Y., Lyu, H., et al. (2023). Benchmarking foundation models with language-model-as-an-examiner. arXiv preprint arXiv:2306.04181.
Bang et al., (2023) Bang, Y., Cahyawijaya, S., Lee, N., Dai, W., Su, D., Wilie, B., Lovenia, H., Ji, Z., Yu, T., Chung, W., et al. (2023). A multitask, multilingual, multimodal evaluation of chatgpt on reasoning, hallucination, and interactivity. arXiv preprint arXiv:2302.04023.
Berrar, (2019) Berrar, D. (2019). Cross-validation.
Bian et al., (2023) Bian, N., Han, X., Sun, L., Lin, H., Lu, Y., and He, B. (2023). Chatgpt is a knowledgeable but inexperienced solver: An investigation of commonsense problem in large language models. arXiv preprint arXiv:2303.16421.
Bodroza et al., (2023) Bodroza, B., Dinic, B. M., and Bojic, L. (2023). Personality testing of gpt-3: Limited temporal reliability, but highlighted social desirability of gpt-3’s personality instruments results. arXiv preprint arXiv:2306.04308.
Bommasani et al., (2021) Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
Brody, (1999) Brody, N. (1999). What is intelligence? International Review of Psychiatry, 11(1):19–25.
Brown et al., (1992) Brown, P. F., Della Pietra, V. J., Desouza, P. V., Lai, J. C., and Mercer, R. L. (1992). Class-based n-gram models of natural language. Computational linguistics, 18(4):467–480.
Brown et al., (2020) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.
Bubeck et al., (2023) Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., et al. (2023). Sparks of artificial general intelligence: Early experiments with gpt-4. arXiv preprint arXiv:2303.12712.
Cao et al., (2023) Cao, Y., Zhou, L., Lee, S., Cabello, L., Chen, M., and Hershcovich, D. (2023). Assessing cross-cultural alignment between chatgpt and human societies: An empirical study. In Proceedings of the First Workshop on Cross-Cultural Considerations in NLP (C3NLP), pages 53–67.
Cascella et al., (2023) Cascella, M., Montomoli, J., Bellini, V., and Bignami, E. (2023). Evaluating the feasibility of chatgpt in healthcare: an analysis of multiple clinical and research scenarios. Journal of Medical Systems, 47(1):33.
Castro Nascimento and Pimentel, (2023) Castro Nascimento, C. M. and Pimentel, A. S. (2023). Do large language models understand chemistry? a conversation with chatgpt. Journal of Chemical Information and Modeling, 63(6):1649–1655.
Chen et al., (2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Chen et al., (2023) Chen, Y., Wang, R., Jiang, H., Shi, S., and Xu, R. (2023). Exploring the use of large language models for reference-free text quality evaluation: A preliminary empirical study. arXiv preprint arXiv:2304.00723.
Chervenak et al., (2023) Chervenak, J., Lieman, H., Blanco-Breindel, M., and Jindal, S. (2023). The promise and peril of using a large language model to obtain clinical information: Chatgpt performs strongly as a fertility counseling tool with limitations. Fertility and Sterility.
Chia et al., (2023) Chia, Y. K., Hong, P., Bing, L., and Poria, S. (2023). Instructeval: Towards holistic evaluation of instruction-tuned large language models. arXiv preprint arXiv:2306.04757.
Choi et al., (2023) Choi, M., Pei, J., Kumar, S., Shu, C., and Jurgens, D. (2023). Do llms understand social knowledge? evaluating the sociability of large language models with socket benchmark. arXiv preprint arXiv:2305.14938.
Chowdhery et al., (2022) Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., et al. (2022). Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
Christiano et al., (2017) Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
Clavié et al., (2023) Clavié, B., Ciceu, A., Naylor, F., Soulié, G., and Brightwell, T. (2023). Large language models in the workplace: A case study on prompt engineering for job type classification. In International Conference on Applications of Natural Language to Information Systems, pages 3–17. Springer.
Collins et al., (2023) Collins, K. M., Jiang, A. Q., Frieder, S., Wong, L., Zilka, M., Bhatt, U., Lukasiewicz, T., Wu, Y., Tenenbaum, J. B., Hart, W., et al. (2023). Evaluating language models for mathematics through interactions. arXiv preprint arXiv:2306.01694.
Cortes and Vapnik, (1995) Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine learning, 20:273–297.
(27) Dai, S., Shao, N., Zhao, H., Yu, W., Si, Z., Xu, C., Sun, Z., Zhang, X., and Xu, J. (2023a). Uncovering chatgpt’s capabilities in recommender systems. arXiv preprint arXiv:2305.02182.
(28) Dai, W., Lin, J., Jin, F., Li, T., Tsai, Y.-S., Gasevic, D., and Chen, G. (2023b). Can large language models provide feedback to students? a case study on chatgpt.
Dao and Le, (2023) Dao, X.-Q. and Le, N.-B. (2023). Investigating the effectiveness of chatgpt in mathematical reasoning and problem solving: Evidence from the vietnamese national high school graduation examination. arXiv preprint arXiv:2306.06331.
de Winter, (2023) de Winter, J. C. (2023). Can chatgpt pass high school exams on english language comprehension. Researchgate. Preprint.
Deng et al., (2009) Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee.
Deroy et al., (2023) Deroy, A., Ghosh, K., and Ghosh, S. (2023). How ready are pre-trained abstractive models and llms for legal case judgement summarization? arXiv preprint arXiv:2306.01248.
Deshpande et al., (2023) Deshpande, A., Murahari, V., Rajpurohit, T., Kalyan, A., and Narasimhan, K. (2023). Toxicity in chatgpt: Analyzing persona-assigned language models. arXiv preprint arXiv:2304.05335.
Devlin et al., (2018) Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Dhamala et al., (2021) Dhamala, J., Sun, T., Kumar, V., Krishna, S., Pruksachatkun, Y., Chang, K.-W., and Gupta, R. (2021). Bold: Dataset and metrics for measuring biases in open-ended language generation. In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 862–872.
Duong and Solomon, (2023) Duong, D. and Solomon, B. D. (2023). Analysis of large-language model versus human performance for genetics questions. European Journal of Human Genetics, pages 1–3.
Fan et al., (2023) Fan, W., Zhao, Z., Li, J., Liu, Y., Mei, X., Wang, Y., Tang, J., and Li, Q. (2023). Recommender systems in the era of large language models (llms).
Fansi Tchango et al., (2022) Fansi Tchango, A., Goel, R., Wen, Z., Martel, J., and Ghosn, J. (2022). Ddxplus: A new dataset for automatic medical diagnosis. Advances in Neural Information Processing Systems, 35:31306–31318.
Ferrara, (2023) Ferrara, E. (2023). Should chatgpt be biased? challenges and risks of bias in large language models. arXiv preprint arXiv:2304.03738.
Floridi and Chiriatti, (2020) Floridi, L. and Chiriatti, M. (2020). Gpt-3: Its nature, scope, limits, and consequences. Minds and Machines, 30:681–694.
Frank, (2023) Frank, M. C. (2023). Baby steps in evaluating the capacities of large language models. Nature Reviews Psychology, pages 1–2.
Frieder et al., (2023) Frieder, S., Pinchetti, L., Griffiths, R.-R., Salvatori, T., Lukasiewicz, T., Petersen, P. C., Chevalier, A., and Berner, J. (2023). Mathematical capabilities of chatgpt. arXiv preprint arXiv:2301.13867.
(43) Fu, C., Chen, P., Shen, Y., Qin, Y., Zhang, M., Lin, X., Qiu, Z., Lin, W., Yang, J., Zheng, X., et al. (2023a). Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394.
(44) Fu, Y., Ou, L., Chen, M., Wan, Y., Peng, H., and Khot, T. (2023b). Chain-of-thought hub: A continuous effort to measure large language models’ reasoning performance. arXiv preprint arXiv:2305.17306.
Fushiki, (2011) Fushiki, T. (2011). Estimation of prediction error by using k-fold cross-validation. Statistics and Computing, 21:137–146.
Gallant et al., (1990) Gallant, S. I. et al. (1990). Perceptron-based learning algorithms. IEEE Transactions on neural networks, 1(2):179–191.
Gao et al., (2022) Gao, I., Ilharco, G., Lundberg, S., and Ribeiro, M. T. (2022). Adaptive testing of computer vision models. arXiv preprint arXiv:2212.02774.
Gao and Lin, (2004) Gao, J. and Lin, C.-Y. (2004). Introduction to the special issue on statistical language modeling.
Gehman et al., (2020) Gehman, S., Gururangan, S., Sap, M., Choi, Y., and Smith, N. A. (2020). Realtoxicityprompts: Evaluating neural toxic degeneration in language models. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3356–3369.
Gekhman et al., (2023) Gekhman, Z., Herzig, J., Aharoni, R., Elkind, C., and Szpektor, I. (2023). Trueteacher: Learning factual consistency evaluation with large language models. arXiv preprint arXiv:2305.11171.
Gilson et al., (2023) Gilson, A., Safranek, C. W., Huang, T., Socrates, V., Chi, L., Taylor, R. A., Chartash, D., et al. (2023). How does chatgpt perform on the united states medical licensing examination? the implications of large language models for medical education and knowledge assessment. JMIR Medical Education, 9(1):e45312.
Graham et al., (2013) Graham, J., Haidt, J., Koleva, S., Motyl, M., Iyer, R., Wojcik, S. P., and Ditto, P. H. (2013). Moral foundations theory: The pragmatic validity of moral pluralism. In Advances in experimental social psychology, volume 47, pages 55–130. Elsevier.
Gu et al., (2023) Gu, Z., Zhu, X., Ye, H., Zhang, L., Wang, J., Jiang, S., Xiong, Z., Li, Z., He, Q., Xu, R., et al. (2023). Xiezhi: An ever-updating benchmark for holistic domain knowledge evaluation. arXiv preprint arXiv:2306.05783.
Guo et al., (2023) Guo, T., Guo, K., Liang, Z., Guo, Z., Chawla, N. V., Wiest, O., Zhang, X., et al. (2023). What indeed can gpt models do in chemistry? a comprehensive benchmark on eight tasks. arXiv preprint arXiv:2305.18365.
Hagendorff and Fabi, (2023) Hagendorff, T. and Fabi, S. (2023). Human-like intuitive behavior and reasoning biases emerged in language models – and disappeared in gpt-4.
Hamidi and Roberts, (2023) Hamidi, A. and Roberts, K. (2023). Evaluation of ai chatbots for patient-specific ehr questions. arXiv preprint arXiv:2306.02549.
Hartmann et al., (2023) Hartmann, J., Schwenzow, J., and Witte, M. (2023). The political ideology of conversational ai: Converging evidence on chatgpt’s pro-environmental, left-libertarian orientation. arXiv preprint arXiv:2301.01768.
Hellas et al., (2023) Hellas, A., Leinonen, J., Sarsa, S., Koutcheme, C., Kujanpää, L., and Sorva, J. (2023). Exploring the responses of large language models to beginner programmers’ help requests. arXiv preprint arXiv:2306.05715.
(59) Hendrycks, D., Basart, S., Kadavath, S., Mazeika, M., Arora, A., Guo, E., Burns, C., Puranik, S., He, H., Song, D., et al. (2021a). Measuring coding challenge competence with apps. arXiv preprint arXiv:2105.09938.
(60) Hendrycks, D., Burns, C., Basart, S., Critch, A., Li, J., Song, D., and Steinhardt, J. (2020a). Aligning ai with shared human values. arXiv preprint arXiv:2008.02275.
(61) Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., and Steinhardt, J. (2020b). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.
(62) Hendrycks, D., Burns, C., Chen, A., and Ball, S. (2021b). Cuad: An expert-annotated nlp dataset for legal contract review. arXiv preprint arXiv:2103.06268.
(63) Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. (2021c). Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874.
Holmes et al., (2023) Holmes, J., Liu, Z., Zhang, L., Ding, Y., Sio, T. T., McGee, L. A., Ashman, J. B., Li, X., Liu, T., Shen, J., et al. (2023). Evaluating large language models on a highly-specialized topic, radiation oncology physics. arXiv preprint arXiv:2304.01938.
Honovich et al., (2022) Honovich, O., Aharoni, R., Herzig, J., Taitelbaum, H., Kukliansy, D., Cohen, V., Scialom, T., Szpektor, I., Hassidim, A., and Matias, Y. (2022). True: Re-evaluating factual consistency evaluation. arXiv preprint arXiv:2204.04991.
(66) Huang, S., Dong, L., Wang, W., Hao, Y., Singhal, S., Ma, S., Lv, T., Cui, L., Mohammed, O. K., Liu, Q., et al. (2023a). Language is not all you need: Aligning perception with language models. arXiv preprint arXiv:2302.14045.
(67) Huang, Y., Bai, Y., Zhu, Z., Zhang, J., Zhang, J., Su, T., Liu, J., Lv, C., Zhang, Y., Lei, J., et al. (2023b). C-eval: A multi-level multi-discipline chinese evaluation suite for foundation models. arXiv preprint arXiv:2305.08322.
(68) Huang, Y., Zhang, Q., Y, P. S., and Sun, L. (2023c). Trustgpt: A benchmark for trustworthy and responsible large language models.
HuggingFace, (2023) HuggingFace (2023). Open-source large language models leaderboard. https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard.
Jahan et al., (2023) Jahan, I., Laskar, M. T. R., Peng, C., and Huang, J. (2023). Evaluation of chatgpt on biomedical tasks: A zero-shot comparison with fine-tuned generative transformers. arXiv preprint arXiv:2306.04504.
Jain et al., (2023) Jain, N., Saifullah, K., Wen, Y., Kirchenbauer, J., Shu, M., Saha, A., Goldblum, M., Geiping, J., and Goldstein, T. (2023). Bring your own data! self-supervised evaluation for large language models. arXiv preprint arXiv:2306.13651.
Jansson et al., (2021) Jansson, M., Hrastinski, S., Stenbom, S., and Enoksson, F. (2021). Online question and answer sessions: How students support their own and other students’ processes of inquiry in a text-based learning environment. The Internet and Higher Education, 51:100817.
Jentzsch and Kersting, (2023) Jentzsch, S. and Kersting, K. (2023). Chatgpt is fun, but it is not funny! humor is still challenging large language models. arXiv preprint arXiv:2306.04563.
Johnson et al., (2023) Johnson, D., Goodman, R., Patrinely, J., Stone, C., Zimmerman, E., Donald, R., Chang, S., Berkowitz, S., Finn, A., Jahangir, E., et al. (2023). Assessing the accuracy and reliability of ai-generated medical responses: an evaluation of the chat-gpt model.
Joshi et al., (2017) Joshi, M., Choi, E., Weld, D. S., and Zettlemoyer, L. (2017). Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada. Association for Computational Linguistics.
Kadavath et al., (2022) Kadavath, S., Conerly, T., Askell, A., Henighan, T. J., Drain, D., Perez, E., Schiefer, N., Dodds, Z., DasSarma, N., Tran-Johnson, E., Johnston, S., El-Showk, S., Jones, A., Elhage, N., Hume, T., Chen, A., Bai, Y., Bowman, S., Fort, S., Ganguli, D., Hernandez, D., Jacobson, J., Kernion, J., Kravec, S., Lovitt, L., Ndousse, K., Olsson, C., Ringer, S., Amodei, D., Brown, T. B., Clark, J., Joseph, N., Mann, B., McCandlish, S., Olah, C., and Kaplan, J. (2022). Language models (mostly) know what they know. ArXiv, abs/2207.05221.
Karpas et al., (2022) Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., et al. (2022). Mrkl systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning. arXiv preprint arXiv:2205.00445.
Kasneci et al., (2023) Kasneci, E., Seßler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., et al. (2023). Chatgpt for good? on opportunities and challenges of large language models for education. Learning and Individual Differences, 103:102274.
Khalfa, (1994) Khalfa, J. (1994). What is intelligence?
Khan et al., (2023) Khan, Y. A., Hokia, C., Xu, J., and Ehlert, B. (2023). covllm: Large language models for covid-19 biomedical literature. arXiv preprint arXiv:2306.04926.
Kiela et al., (2021) Kiela, D., Bartolo, M., Nie, Y., Kaushik, D., Geiger, A., Wu, Z., Vidgen, B., Prasad, G., Singh, A., Ringshia, P., et al. (2021). Dynabench: Rethinking benchmarking in nlp. arXiv preprint arXiv:2104.14337.
Kohavi et al., (1995) Kohavi, R. et al. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In Ijcai, volume 14, pages 1137–1145. Montreal, Canada.
Kombrink et al., (2011) Kombrink, S., Mikolov, T., Karafiát, M., and Burget, L. (2011). Recurrent neural network based language modeling in meeting recognition. In Interspeech, volume 11, pages 2877–2880.
Kung et al., (2023) Kung, T. H., Cheatham, M., Medenilla, A., Sillos, C., De Leon, L., Elepaño, C., Madriaga, M., Aggabao, R., Diaz-Candido, G., Maningo, J., et al. (2023). Performance of chatgpt on usmle: Potential for ai-assisted medical education using large language models. PLoS digital health, 2(2):e0000198.
Kwiatkowski et al., (2019) Kwiatkowski, T., Palomaki, J., Redfield, O., Collins, M., Parikh, A., Alberti, C., Epstein, D., Polosukhin, I., Kelcey, M., Devlin, J., Lee, K., Toutanova, K. N., Jones, L., Chang, M.-W., Dai, A., Uszkoreit, J., Le, Q., and Petrov, S. (2019). Natural questions: a benchmark for question answering research. Transactions of the Association of Computational Linguistics.
Lahat et al., (2023) Lahat, A., Shachar, E., Avidan, B., Shatz, Z., Glicksberg, B. S., and Klang, E. (2023). Evaluating the use of large language model in identifying top research questions in gastroenterology. Scientific reports, 13(1):4164.
Lai et al., (2023) Lai, V. D., Ngo, N. T., Veyseh, A. P. B., Man, H., Dernoncourt, F., Bui, T., and Nguyen, T. H. (2023). Chatgpt beyond english: Towards a comprehensive evaluation of large language models in multilingual learning. arXiv preprint arXiv:2304.05613.
Lanzi and Loiacono, (2023) Lanzi, P. L. and Loiacono, D. (2023). Chatgpt and other large language models as evolutionary engines for online interactive collaborative game design. arXiv preprint arXiv:2303.02155.
Laskar et al., (2023) Laskar, M. T. R., Bari, M. S., Rahman, M., Bhuiyan, M. A. H., Joty, S., and Huang, J. X. (2023). A systematic study and comprehensive evaluation of chatgpt on benchmark datasets. arXiv preprint arXiv:2305.18486.
Le and Zhang, (2023) Le, V.-H. and Zhang, H. (2023). An evaluation of log parsing with chatgpt. arXiv preprint arXiv:2306.01590.
LeCun et al., (2015) LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. nature, 521(7553):436–444.
Lee et al., (2023) Lee, N., An, N. M., and Thorne, J. (2023). Can large language models infer and disagree like humans? arXiv preprint arXiv:2305.13788.
Lewis et al., (2019) Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., and Zettlemoyer, L. (2019). Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461.
(94) Li, M., Song, F., Yu, B., Yu, H., Li, Z., Huang, F., and Li, Y. (2023a). Api-bank: A benchmark for tool-augmented llms.
(95) Li, R., Deng, W., Cheng, Y., Yuan, Z., Zhang, J., and Yuan, F. (2023b). Exploring the upper limits of text-based collaborative filtering using large language models: Discoveries and insights. arXiv preprint arXiv:2305.11700.
(96) Li, X., Liu, M., Gao, S., and Buntine, W. (2023c). A survey on out-of-distribution evaluation of neural nlp models.
(97) Li, X., Zhang, T., Dubois, Y., Taori, R., Gulrajani, I., Guestrin, C., Liang, P., and Hashimoto, T. B. (2023d). Alpacaeval: An automatic evaluator of instruction-following models. https://github.com/tatsu-lab/alpaca_eval.
Liang et al., (2022) Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., et al. (2022). Holistic evaluation of language models. arXiv preprint arXiv:2211.09110.
Liévin et al., (2022) Liévin, V., Hother, C. E., and Winther, O. (2022). Can large language models reason about medical questions? arXiv preprint arXiv:2207.08143.
Lin, (2004) Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81.
Lin et al., (2021) Lin, S., Hilton, J., and Evans, O. (2021). Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
Lin et al., (2014) Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer.
Lin and Chen, (2023) Lin, Y.-T. and Chen, Y.-N. (2023). Llm-eval: Unified multi-dimensional automatic evaluation for open-domain conversations with large language models. arXiv preprint arXiv:2305.13711.
(104) Liu, C., Jin, R., Ren, Y., Yu, L., Dong, T., Peng, X., Zhang, S., Peng, J., Zhang, P., Lyu, Q., Su, X., Liu, Q., and Xiong, D. (2023a). M3ke: A massive multi-level multi-subject knowledge evaluation benchmark for chinese large language models.
(105) Liu, H., Ning, R., Teng, Z., Liu, J., Zhou, Q., and Zhang, Y. (2023b). Evaluating the logical reasoning ability of chatgpt and gpt-4.
(106) Liu, J., Xia, C. S., Wang, Y., and Zhang, L. (2023c). Is your code generated by chatgpt really correct? rigorous evaluation of large language models for code generation. arXiv preprint arXiv:2305.01210.
LMSYS, (2023) LMSYS (2023). Chatbot arena: Benchmarking llms in the wild with elo ratings. https://lmsys.org.
Lopez-Lira and Tang, (2023) Lopez-Lira, A. and Tang, Y. (2023). Can chatgpt forecast stock price movements? return predictability and large language models. arXiv preprint arXiv:2304.07619.
(109) Lyu, C., Xu, J., and Wang, L. (2023a). New trends in machine translation using large language models: Case examples with chatgpt. arXiv preprint arXiv:2305.01181.
(110) Lyu, Q., Tan, J., Zapadka, M. E., Ponnatapuram, J., Niu, C., Wang, G., and Whitlow, C. T. (2023b). Translating radiology reports into plain language using chatgpt and gpt-4 with prompt learning: Promising results, limitations, and potential. arXiv preprint arXiv:2303.09038.
Ma et al., (2021) Ma, Z., Ethayarajh, K., Thrush, T., Jain, S., Wu, L., Jia, R., Potts, C., Williams, A., and Kiela, D. (2021). Dynaboard: An evaluation-as-a-service platform for holistic next-generation benchmarking. Advances in Neural Information Processing Systems, 34:10351–10367.
(112) Manakul, P., Liusie, A., and Gales, M. J. (2023a). Selfcheckgpt: Zero-resource black-box hallucination detection for generative large language models. arXiv preprint arXiv:2303.08896.
(113) Manakul, P., Liusie, A., and Gales, M. J. F. (2023b). Mqag: Multiple-choice question answering and generation for assessing information consistency in summarization.
Margatina et al., (2023) Margatina, K., Wang, S., Vyas, Y., John, N. A., Benajiba, Y., and Ballesteros, M. (2023). Dynamic benchmarking of masked language models on temporal concept drift with multiple views. arXiv preprint arXiv:2302.12297.
McCarthy, (2007) McCarthy, J. (2007). What is artificial intelligence.
Microsoft, (2023) Microsoft (2023). Bing chat. https://www.bing.com/new.
Min et al., (2023) Min, S., Krishna, K., Lyu, X., Lewis, M., Yih, W.-t., Koh, P. W., Iyyer, M., Zettlemoyer, L., and Hajishirzi, H. (2023). Factscore: Fine-grained atomic evaluation of factual precision in long form text generation. arXiv preprint arXiv:2305.14251.
Nay et al., (2023) Nay, J. J., Karamardian, D., Lawsky, S. B., Tao, W., Bhat, M., Jain, R., Lee, A. T., Choi, J. H., and Kasai, J. (2023). Large language models as tax attorneys: A case study in legal capabilities emergence. arXiv preprint arXiv:2306.07075.
Nie et al., (2019) Nie, Y., Williams, A., Dinan, E., Bansal, M., Weston, J., and Kiela, D. (2019). Adversarial nli: A new benchmark for natural language understanding. arXiv preprint arXiv:1910.14599.
Nijkamp et al., (2022) Nijkamp, E., Pang, B., Hayashi, H., Tu, L., Wang, H., Zhou, Y., Savarese, S., and Xiong, C. (2022). Codegen: An open large language model for code with multi-turn program synthesis. arXiv preprint arXiv:2203.13474.
Novikova et al., (2017) Novikova, J., Dušek, O., Curry, A. C., and Rieser, V. (2017). Why we need new evaluation metrics for nlg. arXiv preprint arXiv:1707.06875.
Oh et al., (2023) Oh, N., Choi, G.-S., and Lee, W. Y. (2023). Chatgpt goes to the operating room: evaluating gpt-4 performance and its potential in surgical education and training in the era of large language models. Annals of Surgical Treatment and Research, 104(5):269.
(123) OpenAI (2023a). https://chat.openai.com.chat.
(124) OpenAI (2023b). Gpt-4 technical report.
Orrù et al., (2023) Orrù, G., Piarulli, A., Conversano, C., and Gemignani, A. (2023). Human-like problem-solving abilities in large language models using chatgpt. Frontiers in Artificial Intelligence, 6.
Ott et al., (2023) Ott, S., Hebenstreit, K., Liévin, V., Hother, C. E., Moradi, M., Mayrhauser, M., Praas, R., Winther, O., and Samwald, M. (2023). Thoughtsource: A central hub for large language model reasoning data. arXiv preprint arXiv:2301.11596.
Ouyang et al., (2022) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744.
Pallagani et al., (2023) Pallagani, V., Muppasani, B., Murugesan, K., Rossi, F., Srivastava, B., Horesh, L., Fabiano, F., and Loreggia, A. (2023). Understanding the capabilities of large language models for automated planning. arXiv preprint arXiv:2305.16151.
Papineni et al., (2002) Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. (2002). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318.
Parisi et al., (2022) Parisi, A., Zhao, Y., and Fiedel, N. (2022). Talm: Tool augmented language models. arXiv preprint arXiv:2205.12255.
Parrish et al., (2022) Parrish, A., Chen, A., Nangia, N., Padmakumar, V., Phang, J., Thompson, J., Htut, P. M., and Bowman, S. (2022). Bbq: A hand-built bias benchmark for question answering. In Findings of the Association for Computational Linguistics: ACL 2022, pages 2086–2105.
Peña et al., (2023) Peña, A., Morales, A., Fierrez, J., Serna, I., Ortega-Garcia, J., Puente, I., Cordova, J., and Cordova, G. (2023). Leveraging large language models for topic classification in the domain of public affairs. arXiv preprint arXiv:2306.02864.
Peng et al., (1997) Peng, K., Nisbett, R. E., and Wong, N. Y. (1997). Validity problems comparing values across cultures and possible solutions. Psychological methods, 2(4):329.
Pezeshkpour, (2023) Pezeshkpour, P. (2023). Measuring and modifying factual knowledge in large language models. arXiv preprint arXiv:2306.06264.
Phang et al., (2021) Phang, J., Chen, A., Huang, W., and Bowman, S. R. (2021). Adversarially constructed evaluation sets are more challenging, but may not be fair. arXiv preprint arXiv:2111.08181.
Pu and Demberg, (2023) Pu, D. and Demberg, V. (2023). Chatgpt vs human-authored text: Insights into controllable text summarization and sentence style transfer.
Qin et al., (2023) Qin, C., Zhang, A., Zhang, Z., Chen, J., Yasunaga, M., and Yang, D. (2023). Is chatgpt a general-purpose natural language processing task solver? arXiv preprint arXiv:2302.06476.
Radford et al., (2018) Radford, A., Narasimhan, K., Salimans, T., Sutskever, I., et al. (2018). Improving language understanding by generative pre-training.
Ribeiro and Lundberg, (2022) Ribeiro, M. T. and Lundberg, S. (2022). Adaptive testing and debugging of nlp models. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3253–3267.
Ribeiro et al., (2020) Ribeiro, M. T., Wu, T., Guestrin, C., and Singh, S. (2020). Beyond accuracy: Behavioral testing of nlp models with checklist. arXiv preprint arXiv:2005.04118.
Riccardi and Desai, (2023) Riccardi, N. and Desai, R. H. (2023). The two word test: A semantic benchmark for large language models. arXiv preprint arXiv:2306.04610.
Rutinowski et al., (2023) Rutinowski, J., Franke, S., Endendyk, J., Dormuth, I., and Pauly, M. (2023). The self-perception and political biases of chatgpt. arXiv preprint arXiv:2304.07333.
Safdari et al., (2023) Safdari, M., Serapio-García, G., Crepy, C., Fitz, S., Romero, P., Sun, L., Abdulhai, M., Faust, A., and Matarić, M. (2023). Personality traits in large language models. arXiv preprint arXiv:2307.00184.
Samaan et al., (2023) Samaan, J. S., Yeo, Y. H., Rajeev, N., Hawley, L., Abel, S., Ng, W. H., Srinivasan, N., Park, J., Burch, M., Watson, R., et al. (2023). Assessing the accuracy of responses by the language model chatgpt to questions regarding bariatric surgery. Obesity Surgery, pages 1–7.
Saparov et al., (2023) Saparov, A., Pang, R. Y., Padmakumar, V., Joshi, N., Kazemi, S. M., Kim, N., and He, H. (2023). Testing the general deductive reasoning capacity of large language models using ood examples. arXiv preprint arXiv:2305.15269.
Sawada et al., (2023) Sawada, T., Paleka, D., Havrilla, A., Tadepalli, P., Vidas, P., Kranias, A., Nay, J. J., Gupta, K., and Komatsuzaki, A. (2023). Arb: Advanced reasoning benchmark for large language models.
Schick et al., (2023) Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N., and Scialom, T. (2023). Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761.
Sharma et al., (2023) Sharma, P., Thapa, K., Dhakal, P., Upadhaya, M. D., Adhikari, S., and Khanal, S. R. (2023). Performance of chatgpt on usmle: Unlocking the potential of large language models for ai-assisted medical education. arXiv preprint arXiv:2307.00112.
Shen et al., (2023) Shen, Y., Song, K., Tan, X., Li, D., Lu, W., and Zhuang, Y. (2023). Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface. arXiv preprint arXiv:2303.17580.
Sheng et al., (2021) Sheng, E., Chang, K.-W., Natarajan, P., and Peng, N. (2021). Societal biases in language generation: Progress and challenges. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4275–4293.
Simmons, (2022) Simmons, G. (2022). Moral mimicry: Large language models produce moral rationalizations tailored to political identity. arXiv preprint arXiv:2209.12106.
Singhal et al., (2022) Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., et al. (2022). Large language models encode clinical knowledge. arXiv preprint arXiv:2212.13138.
Smith et al., (2022) Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., Casper, J., Liu, Z., Prabhumoye, S., Zerveas, G., Korthikanti, V., et al. (2022). Using deepspeed and megatron to train megatron-turing nlg 530b, a large-scale generative language model. arXiv preprint arXiv:2201.11990.
Song et al., (2023) Song, X., Gupta, A., Mohebbizadeh, K., Hu, S., and Singh, A. (2023). Have large language models developed a personality?: Applicability of self-assessment tests in measuring personality in llms. arXiv preprint arXiv:2305.14693.
Sridhara et al., (2023) Sridhara, G., Mazumdar, S., et al. (2023). Chatgpt: A study on its utility for ubiquitous software engineering tasks. arXiv preprint arXiv:2305.16837.
Srivastava et al., (2022) Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., et al. (2022). Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Sun et al., (2023) Sun, W., Yan, L., Ma, X., Ren, P., Yin, D., and Ren, Z. (2023). Is chatgpt good at search? investigating large language models as re-ranking agent. arXiv preprint arXiv:2304.09542.
Tao et al., (2023) Tao, Z., Jin, Z., Bai, X., Zhao, H., Feng, Y., Li, J., and Hu, W. (2023). Eveval: A comprehensive evaluation of event semantics for large language models. arXiv preprint arXiv:2305.15268.
Thakur et al., (2021) Thakur, N., Reimers, N., Rücklé, A., Srivastava, A., and Gurevych, I. (2021). Beir: A heterogenous benchmark for zero-shot evaluation of information retrieval models. arXiv preprint arXiv:2104.08663.
Thirunavukarasu et al., (2023) Thirunavukarasu, A. J., Hassan, R., Mahmood, S., Sanghera, R., Barzangi, K., El Mukashfi, M., and Shah, S. (2023). Trialling a large language model (chatgpt) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Medical Education, 9(1):e46599.
Thrush et al., (2022) Thrush, T., Tirumala, K., Gupta, A., Bartolo, M., Rodriguez, P., Kane, T., Rojas, W. G., Mattson, P., Williams, A., and Kiela, D. (2022). Dynatask: A framework for creating dynamic ai benchmark tasks. arXiv preprint arXiv:2204.01906.
Tian et al., (2018) Tian, Y., Pei, K., Jana, S., and Ray, B. (2018). Deeptest: Automated testing of deep-neural-network-driven autonomous cars. In Proceedings of the 40th international conference on software engineering, pages 303–314.
ToolBench, (2023) ToolBench (2023). Open-source tools learning benchmarks. https://github.com/sambanova/toolbench.
Touvron et al., (2023) Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
Turing, (2009) Turing, A. M. (2009). Computing machinery and intelligence. Springer.
Valmeekam et al., (2023) Valmeekam, K., Marquez, M., Sreedharan, S., and Kambhampati, S. (2023). On the planning abilities of large language models–a critical investigation. arXiv preprint arXiv:2305.15771.
Valmeekam et al., (2022) Valmeekam, K., Olmo, A., Sreedharan, S., and Kambhampati, S. (2022). Large language models still can’t plan (a benchmark for llms on planning and reasoning about change). arXiv preprint arXiv:2206.10498.
Vaswani et al., (2017) Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Wang et al., (2019) Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. (2019). Superglue: A stickier benchmark for general-purpose language understanding systems. Advances in neural information processing systems, 32.
Wang et al., (2018) Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. R. (2018). Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461.
(171) Wang, B., Chen, W., Pei, H., Xie, C., Kang, M., Zhang, C., Xu, C., Xiong, Z., Dutta, R., Schaeffer, R., Truong, S. T., Arora, S., Mazeika, M., Hendrycks, D., Lin, Z., Cheng, Y., Koyejo, S., Song, D., and Li, B. (2023a). Decodingtrust: A comprehensive assessment of trustworthiness in gpt models.
Wang and Komatsuzaki, (2021) Wang, B. and Komatsuzaki, A. (2021). Gpt-j-6b: A 6 billion parameter autoregressive language model.
(173) Wang, B., Xu, C., Wang, S., Gan, Z., Cheng, Y., Gao, J., Awadallah, A. H., and Li, B. (2021a). Adversarial glue: A multi-task benchmark for robustness evaluation of language models. arXiv preprint arXiv:2111.02840.
(174) Wang, C., Cheng, S., Xu, Z., Ding, B., Wang, Y., and Zhang, Y. (2023b). Evaluating open question answering evaluation. arXiv preprint arXiv:2305.12421.
(175) Wang, J., Hu, X., Hou, W., Chen, H., Zheng, R., Wang, Y., Yang, L., Huang, H., Ye, W., Geng, X., et al. (2023c). On the robustness of chatgpt: An adversarial and out-of-distribution perspective. In ICLR workshop on Trustworthy and Reliable Large-Scale Machine Learning Models.
Wang et al., (2022) Wang, J., Lan, C., Liu, C., Ouyang, Y., Qin, T., Lu, W., Chen, Y., Zeng, W., and Yu, P. (2022). Generalizing to unseen domains: A survey on domain generalization. IEEE Transactions on Knowledge and Data Engineering.
(177) Wang, L., Lyu, C., Ji, T., Zhang, Z., Yu, D., Shi, S., and Tu, Z. (2023d). Document-level machine translation with large language models. arXiv preprint arXiv:2304.02210.
(178) Wang, P., Li, L., Chen, L., Zhu, D., Lin, B., Cao, Y., Liu, Q., Liu, T., and Sui, Z. (2023e). Large language models are not fair evaluators. arXiv preprint arXiv:2305.17926.
Wang and Demszky, (2023) Wang, R. E. and Demszky, D. (2023). Is chatgpt a good teacher coach? measuring zero-shot performance for scoring and providing actionable insights on classroom instruction. arXiv preprint arXiv:2306.03090.
(180) Wang, X., Li, X., Yin, Z., Wu, Y., and Jia, L. (2023f). Emotional intelligence of large language models.
(181) Wang, Y., Wang, W., Joty, S., and Hoi, S. C. (2021b). Codet5: Identifier-aware unified pre-trained encoder-decoder models for code understanding and generation. arXiv preprint arXiv:2109.00859.
(182) Wang, Y., Yu, Z., Wang, J., Heng, Q., Chen, H., Ye, W., Xie, R., Xie, X., and Zhang, S. (2023g). Exploring vision-language models for imbalanced learning. arXiv preprint arXiv:2304.01457.
(183) Wang, Y., Yu, Z., Zeng, Z., Yang, L., Wang, C., Chen, H., Jiang, C., Xie, R., Wang, J., Xie, X., et al. (2023h). Pandalm: An automatic evaluation benchmark for llm instruction tuning optimization. arXiv preprint arXiv:2306.05087.
(184) Wang, Z., Li, R., Dong, B., Wang, J., Li, X., Liu, N., Mao, C., Zhang, W., Dong, L., Gao, J., et al. (2023i). Can llms like gpt-4 outperform traditional ai tools in dementia diagnosis? maybe, but not today. arXiv preprint arXiv:2306.01499.
(185) Wang, Z., Xie, Q., Ding, Z., Feng, Y., and Xia, R. (2023j). Is chatgpt a good sentiment analyzer? a preliminary study.
(186) Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., et al. (2022a). Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.
(187) Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., hsin Chi, E. H., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., and Fedus, W. (2022b). Emergent abilities of large language models. Trans. Mach. Learn. Res., 2022.
Wei et al., (2023) Wei, T., Luan, J., Liu, W., Dong, S., and Wang, B. (2023). Cmath: Can your language model pass chinese elementary school math test?
White et al., (2023) White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J., and Schmidt, D. C. (2023). A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382.
Wong, (2015) Wong, T.-T. (2015). Performance evaluation of classification algorithms by k-fold and leave-one-out cross validation. Pattern Recognition, 48(9):2839–2846.
(191) Wu, P. Y., Tucker, J. A., Nagler, J., and Messing, S. (2023a). Large language models can be used to estimate the ideologies of politicians in a zero-shot learning setting. arXiv preprint arXiv:2303.12057.
(192) Wu, Y., Jia, F., Zhang, S., Wu, Q., Li, H., Zhu, E., Wang, Y., Lee, Y. T., Peng, R., and Wang, C. (2023b). An empirical study on challenging math problem solving with gpt-4. arXiv preprint arXiv:2306.01337.
(193) Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., and Kim, Y. (2023c). Reasoning or reciting? exploring the capabilities and limitations of language models through counterfactual tasks. arXiv preprint arXiv:2307.02477.
(194) Xu, F., Lin, Q., Han, J., Zhao, T., Liu, J., and Cambria, E. (2023a). Are large language models really good logical reasoners? a comprehensive evaluation from deductive, inductive and abductive views. arXiv preprint arXiv:2306.09841.
(195) Xu, G., Liu, J., Yan, M., Xu, H., Si, J., Zhou, Z., Yi, P., Gao, X., Sang, J., Zhang, R., Zhang, J., Peng, C., Huang, F., and Zhou, J. (2023b). Cvalues: Measuring the values of chinese large language models from safety to responsibility.
(196) Xu, R., Feng, Y., and Chen, H. (2023c). Chatgpt vs. google: A comparative study of search performance and user experience. arXiv preprint arXiv:2307.01135.
Yang and Menczer, (2023) Yang, K.-C. and Menczer, F. (2023). Large language models can rate news outlet credibility. arXiv preprint arXiv:2304.00228.
Yang et al., (2022) Yang, L., Zhang, S., Qin, L., Li, Y., Wang, Y., Liu, H., Wang, J., Xie, X., and Zhang, Y. (2022). Glue-x: Evaluating natural language understanding models from an out-of-distribution generalization perspective. arXiv preprint arXiv:2211.08073.
Yu et al., (2023) Yu, J., Wang, X., Tu, S., Cao, S., Zhang-Li, D., Lv, X., Peng, H., Yao, Z., Zhang, X., Li, H., et al. (2023). Kola: Carefully benchmarking world knowledge of large language models. arXiv preprint arXiv:2306.09296.
(200) Yuan, Z., Yuan, F., Song, Y., Li, Y., Fu, J., Yang, F., Pan, Y., and Ni, Y. (2023a). Where to go next for recommender systems? id- vs. modality-based recommender models revisited.
(201) Yuan, Z., Yuan, H., Tan, C., Wang, W., and Huang, S. (2023b). How well do large language models perform in arithmetic tasks? arXiv preprint arXiv:2304.02015.
Zeng et al., (2022) Zeng, A., Liu, X., Du, Z., Wang, Z., Lai, H., Ding, M., Yang, Z., Xu, Y., Zheng, W., Xia, X., et al. (2022). Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414.
(203) Zhang, J., Bao, K., Zhang, Y., Wang, W., Feng, F., and He, X. (2023a). Is chatgpt fair for recommendation? evaluating fairness in large language model recommendation. arXiv preprint arXiv:2305.07609.
Zhang et al., (2022) Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., et al. (2022). Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068.
(205) Zhang, S. J., Florin, S., Lee, A. N., Niknafs, E., Marginean, A., Wang, A., Tyser, K., Chin, Z., Hicke, Y., Singh, N., et al. (2023b). Exploring the mit mathematics and eecs curriculum using large language models. arXiv preprint arXiv:2306.08997.
Zhang et al., (2019) Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. (2019). Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675.
(207) Zhang, W., Aljunied, S. M., Gao, C., Chia, Y. K., and Bing, L. (2023c). M3exam: A multilingual, multimodal, multilevel benchmark for examining large language models. arXiv preprint arXiv:2306.05179.
(208) Zhang, W., Deng, Y., Liu, B., Pan, S. J., and Bing, L. (2023d). Sentiment analysis in the era of large language models: A reality check. arXiv preprint arXiv:2305.15005.
(209) Zhang, X., Li, C., Zong, Y., Ying, Z., He, L., and Qiu, X. (2023e). Evaluating the performance of large language models on gaokao benchmark. arXiv preprint arXiv:2305.12474.
(210) Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., et al. (2023a). A survey of large language models. arXiv preprint arXiv:2303.18223.
(211) Zhao, Y., Pang, T., Du, C., Yang, X., Li, C., Cheung, N.-M., and Lin, M. (2023b). On evaluating adversarial robustness of large vision-language models. arXiv preprint arXiv:2305.16934.
Zheng et al., (2023) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena.
Zhong et al., (2023) Zhong, W., Cui, R., Guo, Y., Liang, Y., Lu, S., Wang, Y., Saied, A., Chen, W., and Duan, N. (2023). Agieval: A human-centric benchmark for evaluating foundation models. arXiv preprint arXiv:2304.06364.
Zhou et al., (2022) Zhou, Y., Muresanu, A. I., Han, Z., Paster, K., Pitis, S., Chan, H., and Ba, J. (2022). Large language models are human-level prompt engineers. arXiv preprint arXiv:2211.01910.
Zhu et al., (2023) Zhu, K., Wang, J., Zhou, J., Wang, Z., Chen, H., Wang, Y., Yang, L., Ye, W., Gong, N. Z., Zhang, Y., et al. (2023). Promptbench: Towards evaluating the robustness of large language models on adversarial prompts. arXiv preprint arXiv:2306.04528.
Zhuang et al., (2023) Zhuang, Y., Liu, Q., Ning, Y., Huang, W., Lv, R., Huang, Z., Zhao, G., Zhang, Z., Mao, Q., Wang, S., et al. (2023). Efficiently measuring the cognitive ability of llms: An adaptive testing perspective. arXiv preprint arXiv:2306.10512.
(217) Zhuo, T. Y., Huang, Y., Chen, C., and Xing, Z. (2023a). Exploring ai ethics of chatgpt: A diagnostic analysis. arXiv preprint arXiv:2301.12867.
(218) Zhuo, T. Y., Li, Z., Huang, Y., Li, Y.-F., Wang, W., Haffari, G., and Shiri, F. (2023b). On robustness of prompt-based semantic parsing with large pre-trained language model: An empirical study on codex. arXiv preprint arXiv:2301.12868.
Ziegler et al., (2019) Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.
Ziems et al., (2023) Ziems, C., Held, W., Shaikh, O., Chen, J., Zhang, Z., and Yang, D. (2023). Can large language models transform computational social science? arXiv preprint arXiv:2305.03514.