一译 —— 文档和论文翻译、对照阅读、讨论和社区

Transformers Provably Solve Parity Efficiently with Chain of Thought

这项工作提供了对训练 Transformer 的首次理论分析，以通过递归产生中间状态来解决复杂问题，该状态类似于对经过三通链（COT）推理的微调。我们考虑培训一层 Transformer 来解决基本的$ k $  - 准则问题，从而扩展了Wies等人（2023）对RNN的工作 ...

0 0 0 2025/04/22 arXiv:2410.08633v3 odenkkk

OTC: Optimal Tool Calls via Reinforcement Learning

工具集成推理（TIR）增强了具有调用外部工具（例如搜索引擎和代码解释者）的能力的大型语言模型（LLMS），以解决超出仅语言推理功能的任务。尽管增强学习（RL）通过优化最终答案正确性表明了在改善TIR方面的希望，但现有方法通常会忽略与工具使用相关的效率和成本。这可能会导致次优行为，包括增加计算和财务开销的工具呼叫，或不足的工具使用损害答案质量的工具 ...

0 0 0 2025/04/22 arXiv:2504.14870v1 chrisxiong

I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing

在基于教学的图像编辑（IIE）领域取得了重大进展。但是，评估这些模型构成了重大挑战。该领域的关键要求是建立一个全面的评估基准，用于准确评估编辑结果并为其进一步发展提供宝贵的见解 ...

0 0 0 2025/04/22 arXiv:2408.14180v2 yiweima

ToolRL: Reward is All Tool Learning Needs

当前的大型语言模型（LLMS）经常受到监督的微调（SFT），以获取工具使用功能。但是，SFT努力概括不熟悉或复杂的工具使用方案。强化学习的最新进步（RL），尤其是类似于R1的模型，已经证明了有希望的推理和概括能力 ...

0 0 0 2025/04/22 arXiv:2504.13958v1 liuweitang

Visual question answering based evaluation metrics for text-to-image generation

文本到图像生成和文本指导的图像操纵在图像生成任务领域受到了广泛关注。但是，这些任务的主流评估方法难以评估输入文本中的所有信息是否准确地反映在生成的图像中，并且它们主要集中于评估输入文本和生成的图像之间的整体比对。本文提出了新的评估指标，以评估每个对象的输入文本和生成图像之间的一致性 ...

0 0 0 2025/04/22 arXiv:2411.10183v1 zl1994

LLM Alignment as Retriever Optimization: An Information Retrieval Perspective

大型语言模型（LLM）彻底改变了人工智能，具有推理，编码和沟通能力的能力，并推动了整个行业的创新。它们的真正潜力取决于有效的一致性，以确保正确，值得信赖和道德行为，以应对诸如错误信息，幻觉，偏见和滥用等挑战。尽管现有的加固学习（RL）基于对齐方式是复杂的，但直接优化方法提供了更简单的替代方法 ...

0 0 0 2025/04/22 arXiv:2502.03699v1 leec

Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation

在科学领域等专业领域，建造大规模的人类注销数据集构成了巨大的挑战，因为需要域专业知识。最近的方法已采用大型语言模型来生成合成查询，这些查询是实际用户查询的代理。但是，他们缺乏对生成的内容的控制，通常导致文档中对学术概念的覆盖不完整 ...

0 0 0 2025/04/22 arXiv:2502.11181v1 leec

Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation

随着大语言模型（LLMS）数学推理能力的快速发展，在教育环境中，AI系统越来越多地采用，以支持学生对解决问题的过程的理解。然而，在当前LLM生成的解释中，关键组件仍未得到充实：视觉解释。在现实世界的教学环境中，人的导师通常采用视觉辅助工具（例如图，标记和亮点）来增强概念清晰度 ...

0 0 0 2025/04/22 arXiv:2504.03197v2 Dreamer

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）