gospel303的文档

gospel303

个性签名 ...

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

能力评估在评估和规范前沿人工智能系统方面发挥着至关重要的作用。这些评估的有效性面临着重大挑战：战略表现不佳，或“沙袋”，即模型在评估过程中故意表现不佳。沙袋可以通过明确的开发人员干预或通过意外的模型行为来体现，这对准确的能力评估构成了根本障碍。我们引入了一种新颖的沙袋检测方法，该方法基于将不同幅度的噪声注入模型权重。虽然非沙袋模型随着噪声的增加而表现出可预测的性能下降，但我们证明沙袋模型表现出异常的性能改进，这可能是由于性能不佳机制的破坏，而核心功能保持部分完整。通过对各种模型架构、大小和沙袋技术的实验，我们建立了这种独特的响应模式，作为检测沙袋行为的可靠的、与模型无关的信号。重要的是，我们发现，在模型在没有指示的情况下表现不佳的情况下，噪声注入能够充分发挥 Mistral Large 120B 的性能。我们的研究结果为人工智能评估和监督提供了实用的工具，解决了确保前沿人工智能系统准确能力评估的挑战 ...

0 0 0 0 2026/02/09 arXiv:2412.01784v3 gospel303