多模态大语言模型(MLLM)由于其强大的多模态理解能力,最近成为研究的焦点。例如,在音频和语音领域, LLM 可以通过连接音频编码器计算的音频标记和文本标记来配备(自动)语音识别(ASR)能力,以实现最先进的结果。相反,像视觉和视听语音识别(VSR/AVSR)这样的任务也利用了噪声不变的嘴唇运动信息,但很少或根本没有受到关注。为了弥补这一差距,我们提出了 Llama-AVSR,这是一种具有强大视听语音识别能力的新型 MLLM。它利用预先训练的音频和视频编码器来生成特定于模态的标记,这些标记与文本标记一起由预先训练的 LLM(例如 Llama3.1-8B)进行处理,以自回归方式产生结果响应。 Llama-AVSR 需要少量可训练参数,因为仅训练特定模态投影仪和 LoRA 模块,而多模态编码器和 LLM 保持冻结。我们在最大的公共 AVSR 基准测试 LRS3 上评估了我们提出的方法,并在 ASR 和 AVSR 任务中取得了最新的结果,WER 分别为 0.79% 和 0.77%。为了支持我们的结果,我们研究了支撑 Llama-AVSR 有效性的关键因素:预训练编码器和 LLM 的选择、LoRA 模块的有效集成以及通过模态感知压缩率获得的最佳性能与效率权衡 ...

0 1 0 0 2025/12/19 arXiv:2409.12319v2 Qxxx2616

平衡探索和利用是强化学习(RL)的核心目标。尽管最近在增强大语言模型 (LLM) 推理方面取得了进展,但大多数方法都倾向于利用,并且越来越多地遇到性能瓶颈。在这项工作中,我们重新审视熵——强化学习中探索的信号——并研究它与 LLM 探索性推理的关系 ...

0 1 0 0 2025/12/19 arXiv:2506.14758v4 Qxxx2616

具有可验证奖励(RLVR)的增强学习已成为增强大语言模型(LLMS)的推理能力的强大方法,而其机制尚未得到充分了解。在这项工作中,我们通过新颖的熵模式进行了对RLVR的开创性探索,并全面分析了不同的 Token 如何影响推理性能。通过检查对经营链(COT)推理中的 Token 熵模式,我们观察到只有一小部分 Token 表现出较高的熵,并且这些 Token 是将模型引导到各种推理途径的关键叉子 ...

0 1 0 0 2025/12/19 arXiv:2506.01939v2 Qxxx2616

查询和产品相关性预测是确保电子商务搜索中流畅的用户体验的关键组成部分。传统研究主要集中于基于 BERT 的模型来评估查询和产品之间的语义相关性。然而,这些方法的判别范式和有限的知识容量限制了它们充分理解查询和产品之间的相关性的能力。随着大型语言模型(LLM)的快速发展,最近的研究开始探索其在工业搜索系统中的应用,因为LLM为推理过程提供了广泛的世界知识和灵活的优化。尽管如此,直接利用 LLM 进行相关性预测任务带来了新的挑战,包括对数据质量的高要求、对推理过程进行细致优化的必要性以及可能导致过度回忆的乐观偏见。为了克服上述问题,本文提出了一种称为基于 LLM 的相关性框架(LREF)的新颖框架,旨在增强电子商务搜索相关性。该框架包括三个主要阶段:带有数据选择的监督微调(SFT)、多重思维链(Multi-CoT)调整以及用于消除偏差的直接偏好优化(DPO)。我们通过对大规模真实数据集进行的一系列离线实验以及在线 A/B 测试来评估框架的性能。结果表明离线和在线指标都有显着改善。最终该模型被部署在某知名电商应用中,产生了可观的商业效益 ...

0 0 0 0 2025/11/13 arXiv:2503.09223v1 Qxxx2616

检索增强生成在知识密集型任务上取得了出色的性能,其中可以通过直接词汇或语义匹配来识别查询文档相关性。然而,许多现实世界的查询涉及抽象推理、类比思维或多步推理,现有的检索器通常很难捕捉到这些问题。为了应对这一挑战,我们提出了 DIVER,这是一种专为推理密集型信息检索而设计的检索管道 ...

0 0 0 0 2025/11/03 arXiv:2508.07995v3 Qxxx2616

动态检索增强生成(RAG)在减轻大语言模型(LLM)生成过程中的幻觉方面取得了巨大成功。 However, existing dynamic RAG methods face significant limitations in two key aspects: 1) Lack of an effective mechanism to control retrieval triggers, and 2) Lack of effective scrutiny of retrieval content. To address these limitations, we propose an innovative dynamic RAG method, DioR (Adaptive Cognitive Detection and Contextual Retrieval Optimization), which consists of two main components: adaptive cognitive detection and contextual retrieval optimization, specifically designed to determine when retrieval is needed and what to retrieve for LLMs is useful. ...

0 1 0 0 2025/10/19 arXiv:2504.10198v2 Qxxx2616

幻觉和事实缺陷仍然是长格式生成中大型语言模型(LLM)可靠性的主要障碍。现有的人类反馈强化学习(RLHF)框架主要依赖于偏好奖励,但它们往往忽视了模型的内部知识边界,加剧了所谓的“幻觉税”。为了应对这一挑战,我们提出了知识级一致性强化学习框架(KLCF),这是一种新颖的框架,重点关注策略模型的表达知识与基础模型的参数知识之间的知识一致性,并引入双事实对齐机制来共同优化事实召回率和精度 ...

0 0 0 0 2025/10/14 arXiv:2509.23765v2 Qxxx2616

检索增强生成 (RAG) 通过整合外部知识来增强大型语言模型 (LLM) 的性能。然而, LLM 在有效利用检索到的文档中的知识方面仍然面临挑战,经常被不相关或嘈杂的信息误导。为了解决这个问题,我们引入了 RankCoT,这是一种知识细化方法,它结合了重新排序信号来生成基于 CoT 的摘要,以根据给定查询和所有检索文档进行知识细化 ...

0 1 0 0 2025/10/12 arXiv:2502.17888v1 Qxxx2616

社交媒体平台利用机器学习 (ML) 和人工智能 (AI) 支持的推荐算法来最大限度地提高用户参与度,这可能会导致无意中接触到有害内容。当前的审核工作依赖于经过大量人工注释数据训练的分类器,在可扩展性和适应新形式的危害方面遇到了困难。为了应对这些挑战,我们提出了一种在零样本和少样本设置中使用大型语言模型(LLM)的新颖的重新排名方法 ...

0 1 0 0 2025/10/12 arXiv:2501.13977v3 Qxxx2616