zhaozijian的文档

zhaozijian

个性签名 ...

Deliberative Alignment: Reasoning Enables Safer Language Models

随着大规模语言模型对安全关键领域的影响越来越大，确保它们可靠地遵守明确定义的原则仍然是一个基本挑战。我们引入了协商对齐（Deliberative Alignment），这是一种新的范式，可以直接教授模型安全规范，并训练它在回答之前明确回忆并准确推理规范。我们使用这种方法来调整 OpenAI 的 o 系列模型，并实现了对 OpenAI 安全策略的高度精确遵守，而不需要人工编写的思路或答案 ...

0 0 0 0 2025/06/16 arXiv:2412.16339v2 zhaozijian

LLMs Get Lost In Multi-Turn Conversation

大型语言模型（LLMS）是对话界面。因此，LLM有可能在用户完全指定手头的任务时为用户提供帮助，还可以帮助他们通过多转交流交换来定义，探索和完善所需的内容。尽管对LLM对话日志的分析已证实在用户指令中经常发生指定性化，但LLM评估主要集中在单转，完全指定的指令设置上 ...

0 1 0 0 2025/05/16 arXiv:2505.06120v1 zhaozijian

SoFA: Shielded On-the-fly Alignment via Priority Rule Following

大语言模型（LLM）中的一致性问题涉及将它们改编成广泛的人类价值观。由于偏好和监管标准的多样性，这一要求挑战了现有的一致方法。本文介绍了一个新颖的对齐范式，“优先规则”以下，该规则将规则定义为每个对话框中的主要控制机制，将其优先于用户说明 ...

0 0 0 0 2025/04/02 arXiv:2402.17358v1 zhaozijian

Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

思想链 (CoT) 提示已成为处理大语言和多模式模型的广泛使用的策略。虽然 CoT 已被证明可以提高许多任务的性能，但确定 CoT 有效的设置仍然是一项持续的工作。特别是，在什么设置下 CoT 会系统地降低模型性能仍然是一个悬而未决的问题 ...

0 0 0 0 2025/03/25 arXiv:2410.21333v3 zhaozijian