一译 —— 文档和论文翻译、对照阅读、讨论和社区

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

现有的大型推理模型（LRMS）表明了增强学习的潜力（RL），以增强大语言模型〜（LLMS）的复杂推理能力。尽管他们在数学和编码等具有挑战性的任务上取得了显着的绩效，但他们通常依靠自己的内部知识来解决问题，这可能是不足的时间敏感或知识密集型问题，从而导致不准确和幻觉。为了解决这个问题，我们建议\ textbf {r1-searcher}，这是一种新颖的基于两阶段结果的RL方法，旨在增强LLM的搜索功 ...

0 1 0 2025/03/19 arXiv:2503.05592v2 leesongzero

TableRAG: Million-Token Table Understanding with Language Models

语言模型 (LM) 的最新进展显着增强了它们使用表格数据进行推理的能力，主要是通过操作和分析表格的程序辅助机制。然而，这些方法通常需要整个表作为输入，由于位置偏差或上下文长度限制而导致可扩展性挑战。为了应对这些挑战，我们引入了 TableRAG，这是一个专门为基于 LM 的表理解而设计的检索增强生成 (RAG) 框架 ...

0 0 0 2025/03/19 arXiv:2410.04739v3 wwl

Attention-aware Resource Allocation and QoE Analysis for Metaverse xURLLC Services

Metaverse封装了我们对下一代互联网的期望，同时带来了新的关键绩效指标（KPI）。尽管常规的超级宽容和低延迟通信（URLLC）可以满足客观KPI，但很难提供个性化的沉浸式体验，这是元视频的独特特征。由于经验质量（QOE）可以被视为全面的KPI，因此使用个性化资源分配方案将URLLC朝向下一代URLLC（XURLLC），以实现更高的QoE ...

0 0 0 2025/03/19 arXiv:2208.05438v6 YONG

The Predictron: End-To-End Learning and Planning

人工智能的关键挑战之一是学习在计划背景下有效的模型。在本文档中，我们介绍了Predictron体系结构。 Predictron由一个完全抽象的模型组成，该模型由马尔可夫奖励过程代表，可以将多个“想象”的计划步骤前进 ...

0 0 0 2025/03/19 arXiv:1612.08810v3 animal_wang

A Survey on Efficient Federated Learning Methods for Foundation Model Training

联邦学习（FL）已成为一种既定的技术，旨在促进众多客户提供隐私的协作培训。但是，FL的新方法经常讨论他们的贡献，仅涉及小型深度学习模型，并专注于培训客户的完整模型。在基础模型（FM）之后，对于许多深度学习应用，现实是不同的 ...

0 0 0 2025/03/19 arXiv:2401.04472v3 Daisyhhh

HALO: Hardware-aware quantization with low critical-path-delay weights for LLM acceleration

量化对于实现LLM的有效推断至关重要。传统的量化方法是硬件不可静止的，仅限于位宽度的约束，并且缺乏电路级别的见解，例如多重蓄能（MAC）单位的时序和能量特征。我们介绍了Halo，这是一种多功能框架，可通过硬件感知的训练后量化（PTQ）方法适应各种硬件 ...

0 0 0 2025/03/19 arXiv:2502.19662v1 TulipDu

What Makes for Good Visual Tokenizers for Large Language Models?

我们从经验上研究了适当的预训练方法，以构建良好的视觉引物，制造大型语言模型（LLMS）强大的多模式大语言模型（MLLMS）。在我们的基准测试中，该基准是为了评估MLLM的视觉语义理解和细粒感知能力的策划，我们讨论了以优势方法（即 ...

0 0 0 2025/03/19 arXiv:2305.12223v2 18804024672

HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization

随着模型大小的快速增加和各种微调应用的重要性，轻量级培训变得至关重要。由于向后通行证的昂贵两倍，因此优化反向传播特别重要。但是，对此过程的修改可能会导致次优融合，因此训练优化应最大程度地减少扰动，这是一项高度挑战的任务 ...

0 0 0 2025/03/19 arXiv:2406.15102v1 TulipDu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）