基本信息 - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

arxiv Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

阅读

Star 0

名称: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

首页: https://yiyibooks.cn/arxiv/2306.05685v4/index.html

原始地址: https://arxiv.org/abs/2306.05685

描述

由于基于大语言模型（LLM）的聊天助手具有广泛的能力，而且现有基准在衡量人类偏好方面存在不足，因此对其进行评估具有挑战性。为了解决这个问题，我们探索使用强大的 LLM 作为评委，就更开放的问题对这些模型进行评估。我们研究了大语言模型作为评委的用法和局限性，包括立场、口头禅和自我强化偏差，以及有限的推理能力，并提出了缓解其中一些问题的解决方案...