ChatGPT 刺激了大语言模型领域的研究热潮。在本文中,我们从性能、评估标准、鲁棒性和错误类型四个角度评估 ChatGPT 的能力。具体来说,我们首先在零样本、少样本和思维链场景下在 17 个数据集、14 个 IE 子任务上评估 ChatGPT 的性能,发现 ChatGPT 和 SOTA 结果之间存在巨大的性能差距 ...
ChatGPT 刺激了大语言模型领域的研究热潮。在本文中,我们从性能、评估标准、鲁棒性和错误类型四个角度评估 ChatGPT 的能力。具体来说,我们首先在零样本、少样本和思维链场景下在 17 个数据集、14 个 IE 子任务上评估 ChatGPT 的性能,发现 ChatGPT 和 SOTA 结果之间存在巨大的性能差距 ...