最近的研究越来越多地探索大型语言模型(LLM)作为推荐系统的新范式,因为它具有可扩展性和世界知识。然而,现有的工作存在三个主要局限性:(1)大多数工作都集中在检索和排名上,而对于完善最终推荐至关重要的重新排名阶段在很大程度上被忽视了; (2)LLM通常用于零样本或监督微调设置,其推理能力,尤其是通过强化学习(RL)和高质量推理数据增强的推理能力,未被充分利用; (3) 项目通常由非语义 ID 表示,这给具有数十亿标识符的工业系统带来了重大的可扩展性挑战。为了解决这些差距,我们提出了生成推理重排序器(GR2),这是一种端到端框架,具有专为重排序而定制的三阶段训练管道。首先,预训练的 LLM 通过标记器对非语义 ID 编码的语义 ID 进行中间训练,实现 $\ge$99% 的唯一性。接下来,更强大的更大规模的LLM通过精心设计的提示和拒绝采样生成高质量的推理痕迹,这些痕迹用于监督微调以传授基础推理技能。最后,我们应用解耦剪辑和动态采样策略优化 (DAPO),实现可扩展的 RL 监督,并提供专为重新排名设计的可验证奖励。对两个真实世界数据集的实验证明了 GR2 的有效性:它在 Recall@5 中超过了最先进的 OneRec-Think 2.4%,在 NDCG@5 中超过了 1.3%。消融证实高级推理轨迹在各个指标上产生了巨大的收益。我们进一步发现,RL 奖励设计对于重新排名至关重要:LLM 倾向于通过保留项目顺序来利用奖励黑客,激励有条件可验证的奖励来减轻这种行为并优化重新排名性能 ...

0 0 0 0 2026/03/16 arXiv:2602.07774v4 tainren9

偏微分方程是科学和工程建模的核心,但设计精确的数值求解器通常需要大量的数学专业知识和手动调整。最近基于神经网络的方法提高了灵活性,但通常需要较高的计算成本,并且可解释性有限。我们引入了 \texttt{AutoNumerics},这是一个多智能体框架,可以直接根据自然语言描述自主设计、实现、调试和验证通用偏微分方程的数值求解器。与黑盒神经求解器不同,我们的框架生成基于经典数值分析的透明求解器。我们引入了从粗到细的执行策略和基于残差的自验证机制。对 24 个典型和现实世界 PDE 问题的实验表明,与现有的神经和基于 LLM 的基线相比,\texttt{AutoNumerics} 实现了具有竞争力或更高的精度,并根据 PDE 结构属性正确选择数值方案,这表明它作为自动 PDE 求解的可访问范例的可行性 ...

0 0 0 0 2026/03/16 arXiv:2602.17607v1 wgkooo

由于需要逼真的轮流和独特的说话者音色,生成口语对话比独白文本转语音 (TTS) 更具挑战性。现有的口语对话生成模型是自回归的,推理缓慢且不稳定。为了克服这些限制,我们引入了 ZipVoice-Dialog,这是一种基于流匹配构建的非自回归零样本口语对话生成模型。关键设计包括:1)扬声器轮流嵌入,用于精确的扬声器轮流; 2)稳定语音文本对齐的课程学习策略; 3)实现立体对话生成的专门策略。此外,由于认识到缺乏开源大规模口语对话数据集,我们策划了 OpenDialog,这是一个来自野外语音数据的 6800 小时口语对话数据集。此外,我们还建立了一个基准来综合评估各种模型。实验结果表明,ZipVoice-Dialog 在清晰度、说话人轮流准确性、说话人相似度和推理速度方面均取得了优异的性能。我们的代码、模型检查点、演示示例和 OpenDialog 数据集均可通过此 https URL 公开获取 ...

0 0 0 0 2026/03/16 arXiv:2507.09318v1 ka

大型语言模型 (LLM) 通常利用检索增强生成 (RAG) 中检索器的前 k 个上下文。在这项工作中,我们提出了一种新颖的指令微调框架 RankRAG,该框架对单个 LLM 进行指令调整,以实现 RAG 中上下文排名和答案生成的双重目的。特别是,通过在训练混合中添加一小部分排名数据,经过指令调整的 LLM 的工作效果出人意料地好,并且优于现有的专家排名模型,包括专门针对大量排名数据进行微调的相同 LLM 。对于生成,我们将我们的模型与许多强大的基准进行比较,包括 GPT-4-0613、GPT-4-turbo-2024-0409 和 ChatQA-1.5,这是一个开源模型,在 RAG 基准上具有最先进的性能。具体来说,我们的 Llama3-RankRAG 在九个知识密集型基准测试中显着优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外,它在生物医学领域的五个 RAG 基准测试中的表现也与 GPT-4 相当,无需对生物医学数据进行指令微调,展示了其卓越的泛化到新领域的能力 ...

0 0 0 0 2026/03/16 arXiv:2407.02485v1 Rar

代理大语言模型 (LLM) 训练通常涉及多轮交互轨迹,由于并发工具使用、思考模式、子代理、上下文管理和其他运行时设计,这些轨迹会分支成多个执行路径。因此,单个任务产生的 token 自然形成具有共享前缀的树形结构 token 轨迹,而不是线性序列。现有的训练管道将此类轨迹线性化并独立处理每个分支,从而导致前向和后向传递中出现大量冗余计算。为了消除这种冗余,我们引入了树训练,这是一种用于树结构轨迹的有效训练框架。其核心组件梯度恢复能够跨共享前缀进行正确的梯度聚合,允许每个前缀精确计算一次,同时在数学上保持与所有分支上的独立训练等效。为了在实践中支持大型轨迹树,我们重新设计了训练引擎以本地摄取树结构数据,并提出了树打包,这是一种保留高前缀重用的内存高效分区策略。在现实世界代理轨迹的密集模型和 MOE 模型上进行的实验表明,强化学习中的监督微调和模型更新阶段的训练速度提高了 6.2 倍 ...

0 0 0 0 2026/03/16 arXiv:2511.00413v3 huaiop

随着 3D 面部头像越来越广泛地用于交流,它们忠实地传达情感至关重要。不幸的是,从单眼图像回归参数化 3D 面部模型的最新最佳方法无法捕捉完整的面部表情,例如微妙或极端的情绪。我们发现用于训练的标准重建指标(地标重投影误差、光度误差和人脸识别损失)不足以捕获高保真表情。结果是面部几何形状与输入图像的情感内容不匹配。我们通过 EMOCA(EMOtion 捕获和动画)解决这个问题,在训练过程中引入一种新颖的深度感知情感一致性损失,这有助于确保重建的 3D 表情与输入图像中描绘的表情相匹配。虽然 EMOCA 实现的 3D 重建误差与当前最佳方法相当,但它在重建表达的质量和感知的情感内容方面显着优于现有方法。我们还直接回归效价和唤醒水平,并根据估计的 3D 面部参数对基本表情进行分类。在野外情感识别任务中,我们的纯几何方法与最好的基于图像的方法不相上下,凸显了 3D 几何在分析人类行为中的价值。模型和代码可通过此 https URL 公开获得 ...

0 0 0 0 2026/03/16 arXiv:2204.11312v1 jiaru19960501

最近的 LLM 自训练方法主要依赖于 LLM 生成响应并过滤那些具有正确输出答案的响应作为训练数据。这种方法通常会产生低质量的微调训练集(例如,不正确的计划或中间推理)。在本文中,我们开发了一种名为 ReST-MCTS* 的强化自我训练方法,该方法基于将过程奖励指导与树搜索 MCTS* 相结合,用于收集更高质量的推理轨迹以及每步值来训练策略和奖励模型。 ReST-MCTS* 规避了通常用于通过基于树搜索的强化学习来训练过程奖励的每步骤手动注释:给定预言机最终正确答案,ReST-MCTS* 能够通过估计此步骤有助于得出正确答案的概率来推断正确的过程奖励。这些推断的奖励有双重目的:它们充当进一步细化过程奖励模型的价值目标,并且还有助于选择政策模型自我训练的高质量痕迹。我们首先证明,在相同的搜索预算下,ReST-MCTS* 中的树搜索策略比之前的 LLM 推理基线(例如 Best-of-N 和 Tree-of-Thought)实现了更高的准确性。然后我们表明,通过使用该树搜索策略搜索的痕迹作为训练数据,我们可以不断增强三种语言模型的多次迭代,并优于其他自训练算法,例如 ReST$^\text{EM}$ 和 Self-Rewarding LM。我们在此 https URL 发布所有代码 ...

0 0 0 0 2026/03/16 arXiv:2406.03816v3 hxh123

3D 超分辨率 (3DSR) 旨在从低分辨率 (LR) 多视图图像重建高分辨率 (HR) 3D 场景。现有方法依赖于密集 LR 输入和按场景优化,这将构建 HR 3D 高斯分布 (3DGS) 的高频先验限制为从预训练的 2D 超分辨率 (2DSR) 模型继承的高频先验。这严重限制了重建保真度、跨场景泛化和实时可用性。我们建议将 3DSR 重新表述为从稀疏 LR 视图到 HR 3DGS 表示的直接前馈映射,使模型能够从大规模多场景数据中自主学习 3D 特定的高频几何形状和外观。这从根本上改变了 3DSR 获取高频知识的方式,并能够对未见过的场景进行稳健的泛化。具体来说,我们引入了 SR3R,这是一种前馈框架,可通过学习的映射网络直接从稀疏 LR 视图预测 HR 3DGS 表示。为了进一步提高重建保真度,我们引入了高斯偏移学习和特征细化,可以稳定重建并锐化高频细节。 SR3R 是即插即用的,可以与任何前馈 3DGS 重建骨干网配对:骨干网提供 LR 3DGS 支架,SR3R 将其升级为 HR 3DGS。跨越三个 3D 基准的大量实验表明,SR3R 超越了最先进的 (SOTA) 3DSR 方法,并实现了强大的零样本泛化,甚至在未见过的场景上优于 SOTA 每场景优化方法 ...

0 0 0 0 2026/03/16 arXiv:2602.24020v1 dsy

随着模型和数据规模的扩大,独立训练的网络通常会引发类似的相似性概念。但是,匹配相似性比在表示空间之间建立显式对应要弱,特别是对于多模态模型,其中一致性不仅必须在每种模态内保持,而且对于学习的图像文本耦合也必须保持。因此,我们要问:给定两个独立训练的多模态对比模型(编码器 $(f, g)$ 和 $(\widetilde{f},\widetilde{g})$)——在不同的分布和不同的架构上进行训练——它们的嵌入空间之间是否存在系统的几何关系?如果是这样,它采取什么形式?它在各种模式中是否一致?在这项工作中,我们表明,在 CLIP、SigLIP 和 FLAVA 等模型系列中,这种几何关系可以通过正交图(直到全局均值偏移)很好地近似,即存在一个正交图 $Q$,其中 $Q^\top Q = I$,使得配对图像 $x$ 的 $\widetilde{f}(x)\approx Q f(x)$。引人注目的是,相同的 $Q$ 同时对齐文本编码器,即文本 $y$ 的 $\widetilde{g}(y)\approx Q g(y)$。理论上,我们证明,如果多模态内核在小锚点集上跨模型一致,即 $\langle f(x), g(y)\rangle \approx \langle \widetilde{f}(x), \widetilde{g}(y)\rangle$,则这两个模型必须通过单个正交映射 $Q$ 关联,并且相同的 $Q$ 跨模型映射图像和文本。更广泛地说,这一发现可以实现向后兼容的模型升级,避免昂贵的重新嵌入,并对学习表示的隐私产生影响。我们的项目页面:这个 https URL ...

0 0 0 0 2026/03/16 arXiv:2602.17584v1 1939058274

基于边缘的表示是视觉理解的基本线索,这一原则植根于早期视觉研究,至今仍然很重要。我们将这一原则扩展到视觉语言对齐,表明跨模态隔离和对齐结构线索可以极大地有益于对长而细节丰富的标题进行微调,并特别注重改进跨模态检索。我们引入了 StructXLIP,这是一种微调对齐范例,可以提取边缘图(例如 Canny),将它们视为图像视觉结构的代理,并过滤相应的标题以强调结构线索,使它们“以结构为中心”。微调通过三个以结构为中心的损失增强了标准对齐损失:(i)将边缘图与结构文本对齐,(ii)将局部边缘区域与文本块匹配,以及(iii)将边缘图连接到彩色图像以防止表示漂移。从理论的角度来看,虽然标准 CLIP 最大化了视觉和文本嵌入之间的互信息,但 StructXLIP 还最大化了多模态结构表示之间的互信息。这种辅助优化本质上更难,引导模型走向更稳健和语义稳定的最小值,增强视觉语言对齐。除了在通用和专业领域的跨模式检索方面优于当前的竞争对手之外,我们的方法还可以作为通用的增强方法,可以以即插即用的方式集成到未来的方法中。代码和预训练模型可在以下网址公开获取:此 https URL ...

0 0 0 0 2026/03/16 arXiv:2602.20089v3 1939058274