arxiv Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

名称
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
首页
https://yiyibooks.cn/arxiv/2306.05685v4/index.html
原始地址
https://arxiv.org/abs/2306.05685
描述
由于基于大语言模型(LLM)的聊天助手具有广泛的能力,而且现有基准在衡量人类偏好方面存在不足,因此对其进行评估具有挑战性。为了解决这个问题,我们探索使用强大的 LLM 作为评委,就更开放的问题对这些模型进行评估。我们研究了大语言模型作为评委的用法和局限性,包括立场、口头禅和自我强化偏差,以及有限的推理能力,并提出了缓解其中一些问题的解决方案...