现有的大型推理模型(LRMS)表明了增强学习的潜力(RL),以增强大语言模型〜(LLMS)的复杂推理能力。尽管他们在数学和编码等具有挑战性的任务上取得了显着的绩效,但他们通常依靠自己的内部知识来解决问题,这可能是不足的时间敏感或知识密集型问题,从而导致不准确和幻觉。为了解决这个问题,我们建议\ textbf {r1-searcher},这是一种新颖的基于两阶段结果的RL方法,旨在增强LLM的搜索功 ...
0 1 0 2025/03/19 arXiv:2503.05592v2 leesongzero
语言模型 (LM) 的最新进展显着增强了它们使用表格数据进行推理的能力,主要是通过操作和分析表格的程序辅助机制。然而,这些方法通常需要整个表作为输入,由于位置偏差或上下文长度限制而导致可扩展性挑战。为了应对这些挑战,我们引入了 TableRAG,这是一个专门为基于 LM 的表理解而设计的检索增强生成 (RAG) 框架 ...
0 0 0 2025/03/19 arXiv:2410.04739v3 wwl
Metaverse封装了我们对下一代互联网的期望,同时带来了新的关键绩效指标(KPI)。尽管常规的超级宽容和低延迟通信(URLLC)可以满足客观KPI,但很难提供个性化的沉浸式体验,这是元视频的独特特征。由于经验质量(QOE)可以被视为全面的KPI,因此使用个性化资源分配方案将URLLC朝向下一代URLLC(XURLLC),以实现更高的QoE ...
0 0 0 2025/03/19 arXiv:2208.05438v6 YONG
人工智能的关键挑战之一是学习在计划背景下有效的模型。在本文档中,我们介绍了Predictron体系结构。 Predictron由一个完全抽象的模型组成,该模型由马尔可夫奖励过程代表,可以将多个“想象”的计划步骤前进 ...
0 0 0 2025/03/19 arXiv:1612.08810v3 animal_wang
联邦学习(FL)已成为一种既定的技术,旨在促进众多客户提供隐私的协作培训。但是,FL的新方法经常讨论他们的贡献,仅涉及小型深度学习模型,并专注于培训客户的完整模型。在基础模型(FM)之后,对于许多深度学习应用,现实是不同的 ...
0 0 0 2025/03/19 arXiv:2401.04472v3 Daisyhhh
量化对于实现LLM的有效推断至关重要。传统的量化方法是硬件不可静止的,仅限于位宽度的约束,并且缺乏电路级别的见解,例如多重蓄能(MAC)单位的时序和能量特征。我们介绍了Halo,这是一种多功能框架,可通过硬件感知的训练后量化(PTQ)方法适应各种硬件 ...
0 0 0 2025/03/19 arXiv:2502.19662v1 TulipDu
我们从经验上研究了适当的预训练方法,以构建良好的视觉引物,制造大型语言模型(LLMS)强大的多模式大语言模型(MLLMS)。在我们的基准测试中,该基准是为了评估MLLM的视觉语义理解和细粒感知能力的策划,我们讨论了以优势方法(即 ...
0 0 0 2025/03/19 arXiv:2305.12223v2 18804024672
随着模型大小的快速增加和各种微调应用的重要性,轻量级培训变得至关重要。由于向后通行证的昂贵两倍,因此优化反向传播特别重要。但是,对此过程的修改可能会导致次优融合,因此训练优化应最大程度地减少扰动,这是一项高度挑战的任务 ...
0 0 0 2025/03/19 arXiv:2406.15102v1 TulipDu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)