一译 —— 文档和论文翻译、对照阅读、讨论和社区

Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs

大型语言模型（LLM）通常会产生在现实世界中缺乏基础的输出，这种现象被称为幻觉。先前的研究将幻觉与模型不确定性相关联，并利用这种关系进行幻觉检测和缓解。在本文中，我们挑战了所有幻觉与不确定性相关的基本假设 ...

0 0 0 2025/05/28 arXiv:2502.12964v1 Jooooe

Soft Merging of Experts with Adaptive Routing

具有条件计算的稀疏激活的神经网络学会通过不同的“专家”子网络路由其输入，提供了一种模块化形式，该模块化是密集激活的模型所缺乏的。尽管有可能的好处，但带有学习路由的模型通常表现不佳，它们的参数匹配密集激活的对应物以及使用非学习的启发式路由策略的模型。在本文中，我们假设这些缺点源于用于训练使用非差异离散路由决策的稀疏激活模型的梯度估计技术 ...

0 0 0 2025/05/28 arXiv:2306.03745v2 kkkrd

DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval

组成的图像检索（CIR）旨在根据参考图像和修改文本从画廊中检索目标图像作为组合查询。最近的方法着重于平衡从两种方式平衡全球信息，并将查询编码为统一功能以进行检索。但是，由于对细粒细节的关注不足，这些粗糙的融合方法通常在处理微妙的视觉变化或复杂的文本说明方面遇到困难 ...

0 0 0 2025/05/28 arXiv:2505.17796v1 Archer

Effectively Controlling Reasoning Models through Thinking Intervention

推理增强大语模型（LLMS）在生成最终答案之前明确生成了中间的推理步骤，从而帮助模型在复杂的问题解决方面表现出色。在本文中，我们证明了这个新兴生成框架为对模型行为进行更细粒度的控制提供了独特的机会。我们提出了思维干预措施，这是一种新颖的范式，旨在通过策略性地插入或修改特定思维 Token 来明确指导LLM的内部推理过程 ...

0 0 0 2025/05/28 arXiv:2503.24370v3 chrisxiong

Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash

大型语言模型（LLMS）在复杂的任务和交互式环境中表现出了令人印象深刻的功能，但它们的创造力仍然没有被忽视。本文使用游戏Balderdash介绍了一个模拟框架，以评估LLM的创造力和逻辑推理。在Balderdash中，玩家为晦涩的术语生成虚拟的定义，以欺骗他人，同时确定正确的定义 ...

0 0 0 2025/05/28 arXiv:2411.10422v1 tianxi.wan

LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation

（rag）通过为llm提供更新的相关知识，在减轻过时的知识或幻觉方面展现出巨大的价值。然而，rag在理解复杂的多跳查询和检索相关文档方面仍然存在一些困难，llm逐步进行推理和检索。受人类逐渐搜索所需信息的推理过程的启发 ...

0 0 0 2025/05/28 arXiv:2404.14043v1 Sydney

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

强化学习（RL）可以直接增强大语言模型的推理能力，而无需广泛依赖监督微调（SFT）。在这项工作中，我们重新审视了传统的政策梯度（PG）机制，并提出了一种简约的RL方法，称为团体策略梯度（GPG）。与常规方法不同，GPG直接优化了原始RL目标，从而避免了对替代损失函数的需求 ...

0 0 0 2025/05/28 arXiv:2504.02546v3 chrisxiong

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

增强学习（RL）算法对每个问题进行了多个n> 1的解决方案尝试并独立奖励它们。这可以优化通过@1性能，并优先考虑隔离样品的强度，而牺牲了一组样本的多样性和集体效用。这不足以使采样能力限制，限制了探索并最终改善了更艰难的例子 ...

0 0 0 2025/05/28 arXiv:2505.15201v1 chrisxiong

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）