- 名称
- An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4
- 描述
最近,利用大语言模型(LLM)评估其他LLM的质量的趋势越来越大。许多研究具有基于开源LLM的评估法官模型进行评估。虽然据称经过微调的法官模型可以与GPT-4实现可比的评估能力,但在这项工作中,我们对LLM-AS-A-A-Gudge进行了经验研究 ...