Qxxx2616的文档

Large Language Models are Strong Audio-Visual Speech Recognition Learners

多模态大语言模型（MLLM）由于其强大的多模态理解能力，最近成为研究的焦点。例如，在音频和语音领域， LLM 可以通过连接音频编码器计算的音频标记和文本标记来配备（自动）语音识别（ASR）能力，以实现最先进的结果。相反，像视觉和视听语音识别（VSR/AVSR）这样的任务也利用了噪声不变的嘴唇运动信息，但很少或根本没有受到关注。为了弥补这一差距，我们提出了 Llama-AVSR，这是一种具有强大视听语音识别能力的新型 MLLM。它利用预先训练的音频和视频编码器来生成特定于模态的标记，这些标记与文本标记一起由预先训练的 LLM（例如 Llama3.1-8B）进行处理，以自回归方式产生结果响应。 Llama-AVSR 需要少量可训练参数，因为仅训练特定模态投影仪和 LoRA 模块，而多模态编码器和 LLM 保持冻结。我们在最大的公共 AVSR 基准测试 LRS3 上评估了我们提出的方法，并在 ASR 和 AVSR 任务中取得了最新的结果，WER 分别为 0.79% 和 0.77%。为了支持我们的结果，我们研究了支撑 Llama-AVSR 有效性的关键因素：预训练编码器和 LLM 的选择、LoRA 模块的有效集成以及通过模态感知压缩率获得的最佳性能与效率权衡 ...

0 1 0 0 2025/12/19 arXiv:2409.12319v2 Qxxx2616

Reasoning with Exploration: An Entropy Perspective

平衡探索和利用是强化学习（RL）的核心目标。尽管最近在增强大语言模型 (LLM) 推理方面取得了进展，但大多数方法都倾向于利用，并且越来越多地遇到性能瓶颈。在这项工作中，我们重新审视熵——强化学习中探索的信号——并研究它与 LLM 探索性推理的关系 ...

0 1 0 0 2025/12/19 arXiv:2506.14758v4 Qxxx2616

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

具有可验证奖励（RLVR）的增强学习已成为增强大语言模型（LLMS）的推理能力的强大方法，而其机制尚未得到充分了解。在这项工作中，我们通过新颖的熵模式进行了对RLVR的开创性探索，并全面分析了不同的 Token 如何影响推理性能。通过检查对经营链（COT）推理中的 Token 熵模式，我们观察到只有一小部分 Token 表现出较高的熵，并且这些 Token 是将模型引导到各种推理途径的关键叉子 ...

0 1 0 0 2025/12/19 arXiv:2506.01939v2 Qxxx2616

LREF: A Novel LLM-based Relevance Framework for E-commerce

查询和产品相关性预测是确保电子商务搜索中流畅的用户体验的关键组成部分。传统研究主要集中于基于 BERT 的模型来评估查询和产品之间的语义相关性。然而，这些方法的判别范式和有限的知识容量限制了它们充分理解查询和产品之间的相关性的能力。随着大型语言模型（LLM）的快速发展，最近的研究开始探索其在工业搜索系统中的应用，因为LLM为推理过程提供了广泛的世界知识和灵活的优化。尽管如此，直接利用 LLM 进行相关性预测任务带来了新的挑战，包括对数据质量的高要求、对推理过程进行细致优化的必要性以及可能导致过度回忆的乐观偏见。为了克服上述问题，本文提出了一种称为基于 LLM 的相关性框架（LREF）的新颖框架，旨在增强电子商务搜索相关性。该框架包括三个主要阶段：带有数据选择的监督微调（SFT）、多重思维链（Multi-CoT）调整以及用于消除偏差的直接偏好优化（DPO）。我们通过对大规模真实数据集进行的一系列离线实验以及在线 A/B 测试来评估框架的性能。结果表明离线和在线指标都有显着改善。最终该模型被部署在某知名电商应用中，产生了可观的商业效益 ...

0 0 0 0 2025/11/13 arXiv:2503.09223v1 Qxxx2616

DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval

检索增强生成在知识密集型任务上取得了出色的性能，其中可以通过直接词汇或语义匹配来识别查询文档相关性。然而，许多现实世界的查询涉及抽象推理、类比思维或多步推理，现有的检索器通常很难捕捉到这些问题。为了应对这一挑战，我们提出了 DIVER，这是一种专为推理密集型信息检索而设计的检索管道 ...

0 0 0 0 2025/11/03 arXiv:2508.07995v3 Qxxx2616

DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation

动态检索增强生成（RAG）在减轻大语言模型（LLM）生成过程中的幻觉方面取得了巨大成功。 However, existing dynamic RAG methods face significant limitations in two key aspects: 1) Lack of an effective mechanism to control retrieval triggers, and 2) Lack of effective scrutiny of retrieval content. To address these limitations, we propose an innovative dynamic RAG method, DioR (Adaptive Cognitive Detection and Contextual Retrieval Optimization), which consists of two main components: adaptive cognitive detection and contextual retrieval optimization, specifically designed to determine when retrieval is needed and what to retrieve for LLMs is useful. ...

0 1 0 0 2025/10/19 arXiv:2504.10198v2 Qxxx2616

Large Language Models are Strong Audio-Visual Speech Recognition Learners

Reasoning with Exploration: An Entropy Perspective

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

LREF: A Novel LLM-based Relevance Framework for E-commerce

DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval

DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation

Knowledge-Level Consistency Reinforcement Learning: Dual-Fact Alignment for Long-Form Factuality

RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts

Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms