- 名称
- GPQA: A Graduate-Level Google-Proof Q&A Benchmark
- 描述
我们提出了 GPQA,这是一个具有挑战性的数据集,包含 448 个多项选择题,由生物学、物理学和化学领域的专家编写。我们确保问题是高质量且极其困难的:在相应领域拥有或正在攻读博士学位的专家达到 65% 的准确率(扣除专家在回顾中发现的明显错误后为 74%),而只有高技能的非专家验证者尽管平均花费超过 30 分钟不受限制地访问网络(即, ...
我们提出了 GPQA,这是一个具有挑战性的数据集,包含 448 个多项选择题,由生物学、物理学和化学领域的专家编写。我们确保问题是高质量且极其困难的:在相应领域拥有或正在攻读博士学位的专家达到 65% 的准确率(扣除专家在回顾中发现的明显错误后为 74%),而只有高技能的非专家验证者尽管平均花费超过 30 分钟不受限制地访问网络(即, ...