cocoyo的文档

SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

随着大语言模型（LLM）的快速发展，LLM的安全性是需要精确评估的关键问题。当前的基准主要集中于单转对话或一种评估安全性的越狱攻击方法。此外，这些基准尚未考虑LLM详细识别和处理不安全信息的能力 ...

0 0 0 0 2025/08/27 arXiv:2502.11090v2 cocoyo

Guiding Reasoning in Small Language Models with LLM Assistance

小语言模型（SLM）的推理能力有限，对其对要求进行深度多步逻辑推论的任务的适用性表示怀疑。本文介绍了一个名为“小理由”的框架，大提示（SMART），该框架通过大型语言模型（LLMS）有针对性的指导有选择地增强SLM推理。受认知脚手架的概念的启发，Smart采用基于分数的评估来确定不确定的推理步骤，并仅在必要时才能纠正LLM生成的推理 ...

0 0 0 0 2025/08/14 arXiv:2504.09923v2 cocoyo

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

具有可验证奖励（RLVR）的增强学习已成为增强大语言模型（LLMS）的推理能力的强大方法，而其机制尚未得到充分了解。在这项工作中，我们通过新颖的熵模式进行了对RLVR的开创性探索，并全面分析了不同的 Token 如何影响推理性能。通过检查对经营链（COT）推理中的 Token 熵模式，我们观察到只有一小部分 Token 表现出较高的熵，并且这些 Token 是将模型引导到各种推理途径的关键叉子 ...

0 0 0 0 2025/07/11 arXiv:2506.01939v1 cocoyo

Game-Theoretic Regularized Self-Play Alignment of Large Language Models

自我播放算法已被开发为用于微调大语模型（LLM）的有效方法，以两种玩家游戏的优先优化制定了偏好优化。但是，关于参考策略的正则化对于缓解过度优化至关重要，在自我播放一致性方面没有足够的研究。在本文中，我们表明我们的正则化方法可以显着改善未注册的自我播放 ...

0 0 0 0 2025/06/28 arXiv:2503.00030v1 cocoyo

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

大型语言模型（LLMS）在推理方面表现出了显着的能力，例如OpenAI-O1和DeepSeek-R1的成功。但是，将推理与外部搜索过程集成在一起仍然具有挑战性，尤其是对于需要多个检索步骤的复杂多跳问题。我们提出了研究，这是一个新颖的框架，该框架训练LLMS通过强化学习通过搜索进行推理，而无需使用任何有关推理步骤的监督数据 ...

0 0 0 0 2025/05/31 arXiv:2503.19470v2 cocoyo

Llama-Nemotron: Efficient Reasoning Models

我们介绍了Llama-Nemotron系列模型，这是一个开放的异构推理模型家族，可提供出色的推理能力，推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米（8b），Super（49b）和Ultra（253b） - 并与最先进的推理模型（例如DeepSeek-R1）一起竞争，同时提供了出色的推理吞吐量和记忆效率。在本报告中，我们讨论了这些模型的培训程序，这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理，知识蒸馏和持续预处理，然后进行以推理为中心的训练后阶段，由两个主要部分组成：受监管的精细调整和大规模增强学习 ...

0 0 0 0 2025/05/06 arXiv:2505.00949v1 cocoyo

SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Guiding Reasoning in Small Language Models with LLM Assistance

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Game-Theoretic Regularized Self-Play Alignment of Large Language Models

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

Llama-Nemotron: Efficient Reasoning Models

Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

Heimdall: test-time scaling on the generative verification

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Uncertainty-Aware Step-wise Verification with Generative Reward Models