arxiv的文档

Unified Humanoid Fall-Safety Policy from a Few Demonstrations

跌倒是人形移动的固有风险。因此，保持稳定性是机器人控制和学习的主要安全焦点，但现有的方法还没有完全避免失去平衡。当不稳定确实发生时，之前的工作仅解决跌倒的孤立方面：避免跌倒、精心设计受控下降或随后站起来。因此，当真正跌倒时，人形机器人缺乏减轻影响和迅速恢复的综合策略，这些脚本无法实现。我们的目标不仅仅是保持平衡，还要使整个跌倒和恢复过程安全且自主：尽可能防止跌倒，在不可避免时减少影响，并在跌倒时站起来。通过将稀疏的人体演示与强化学习和基于自适应扩散的安全反应记忆相融合，我们学习了自适应全身行为，将预防跌倒、减轻影响和快速恢复统一在一项政策中。模拟和 Unitree G1 上的实验证明了强大的模拟到真实的转换、较低的冲击力以及在各种干扰下持续快速的恢复，这表明在真实环境中机器人会更安全、更有弹性。视频可通过此 https URL 获取 ...

0 1 1 11 2025/12/12 arXiv:2511.07407v1 ziyanhuang

A Survey on Neural Speech Synthesis

文本转语音（TTS）或语音合成旨在合成给定文本的可理解且自然的语音，是语音、语言和机器学习社区的热门研究课题，在业界有着广泛的应用。近年来，随着深度学习和人工智能的发展，基于神经网络的TTS显着提高了合成语音的质量。在本文中，我们对神经 TTS 进行了全面的调查，旨在提供对当前研究和未来趋势的良好理解。我们重点关注神经 TTS 的关键组成部分，包括文本分析、声学模型和声码器，以及一些高级主题，包括快速 TTS、低资源 TTS、鲁棒 TTS、表达性 TTS 和自适应 TTS 等。我们进一步总结与 TTS 相关的资源（例如数据集、开源实现）并讨论未来的研究方向。这项调查可以为从事 TTS 的学术研究人员和行业从业者提供服务 ...

0 0 0 0 2025/12/12 arXiv:2106.15561v3 tremble

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

小语言模型 (SLM) 的高效部署对于众多具有严格延迟限制的实际应用程序至关重要。虽然之前的 SLM 设计工作主要集中在减少参数数量以实现参数最优 SLM，但参数效率并不一定会转化为成比例的实际设备加速。这项工作旨在确定 SLM 真实设备延迟的关键决定因素，并在以真实设备延迟为主要考虑因素时为 SLM 设计和训练提供通用原则和方法。具体来说，我们确定了两个核心架构因素：深度宽度比和操作员选择。前者对于小批量延迟至关重要，而后者则同时影响延迟和大批量吞吐量。有鉴于此，我们首先研究延迟最佳深度宽度比，其主要发现是，尽管深薄模型通常在相同的参数预算下获得更好的精度，但它们可能并不位于精度与延迟权衡边界上。接下来，我们探索新兴的有效注意力替代方案，以评估它们作为候选建筑运营商的潜力。使用已识别的有前途的算子，我们构建了一个进化搜索框架，以自动发现混合 SLM 中这些算子的延迟最佳组合，从而推进准确性-延迟边界。除了架构改进之外，我们还使用权重归一化技术进一步增强 SLM 训练，该技术可以实现更有效的权重更新并改进最终收敛。结合这些方法，我们引入了一个新的混合 SLM 系列，称为 Nemotron-Flash，它显着提高了最先进的 SLM 的精度-效率前沿，例如，与 Qwen3-1.7B/0.6B 相比，平均精度分别提高了 5.5% 以上，延迟降低了 1.3 倍/1.9 倍，吞吐量提高了 18.7 倍/45.6 倍 ...

0 0 0 0 2025/12/12 arXiv:2511.18890v1 budda

Data Poisoning Attacks Against Multimodal Encoders

最近，新出现的多模态模型利用视觉和语言模态来训练强大的编码器，受到越来越多的关注。然而，从大规模未标记数据集中学习也会使模型面临潜在中毒攻击的风险，攻击者旨在扰乱模型的训练数据以触发其中的恶意行为。与之前的工作相比，仅毒害视觉模态，在这项工作中，我们迈出了第一步，研究视觉和语言模态中针对多模态模型的中毒攻击。 Specially, we focus on answering two questions: (1) Is the linguistic modality also vulnerable to poisoning attacks? (2) 哪种方式最容易受到攻击？ To answer the two questions, we propose three types of poisoning attacks against multimodal models.对不同数据集和模型架构的广泛评估表明，所有三种攻击都可以实现显着的攻击性能，同时保持模型在视觉和语言模式上的实用性。 Furthermore, we observe that the poisoning effect differs between different modalities. To mitigate the attacks, we propose both pre-training and post-training defenses. We empirically show that both defenses can significantly reduce the attack performance while preserving the model's utility. ...

0 0 0 0 2025/12/12 arXiv:2209.15266v2 13460850092

Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark

虽然大型语言模型 (LLM) 在问答 (QA) 任务中表现出色，但它们在多证据检索和多跳 QA 任务集成方面的真正推理能力仍然很少被探索。首先， LLM 有时会依赖内部记忆生成答案，而不是在给定上下文中检索证据和推理，这带来了对真实推理能力评估质量的担忧。虽然之前的反事实 QA 基准可以分离 LLM 的内部记忆，但它们只关注最终的 QA 表现，这不足以报告 LLM 的真实推理能力。因为 LLM 需要参与复杂的推理过程，其中涉及证据检索并回答给定段落中的一系列子问题。此外，当前的事实多跳质量保证（MHQA）基准在维基百科等开源语料库上进行注释，尽管对于多步推理评估有用，但由于 LLM 预训练阶段潜在的数据污染，它们显示出局限性。为了解决这些问题，我们引入了逐步反事实基准（CofCA），这是一种由事实数据和反事实数据组成的新颖评估基准，揭示了 LLM 在多步推理和推理链评估上的真实推理能力。我们的实验结果揭示了基于维基百科的事实数据和反事实数据之间的一些 LLM 的显着性能差距，认为现有基准中存在数据污染问题。此外，我们观察到 LLM 通常会绕过正确的推理链，表现出夸大的多步骤推理性能。我们相信，我们的 CofCA 基准将增强和促进对值得信赖的 LLM 的评估 ...

0 0 0 0 2025/12/12 arXiv:2402.11924v5 feilaixiaoyu

EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation

我们引入了 EXIT，一种提取上下文压缩框架，可提高问答 (QA) 中检索增强生成 (RAG) 的有效性和效率。当检索模型无法对最相关的文档进行排名时，当前的 RAG 系统通常会陷入困境，从而导致包含更多上下文，但代价是延迟和准确性。虽然抽象压缩方法可以大大减少 Token 数量，但其逐个 Token 的生成过程会显着增加端到端延迟。相反，现有的提取方法减少了延迟，但依赖于独立的、非自适应的句子选择，未能充分利用上下文信息。 EXIT 通过对检索到的文档中的句子进行分类来解决这些限制，同时保留其上下文依赖性，从而实现可并行的、上下文感知的提取，以适应查询复杂性和检索质量。我们对单跳和多跳 QA 任务的评估表明，EXIT 在 QA 准确性方面始终超越现有的压缩方法甚至未压缩的基线，同时还大幅减少了推理时间和 Token 计数。通过提高有效性和效率，EXIT 为在 RAG 管道中开发可扩展的高质量 QA 解决方案提供了一个有前景的方向。我们的代码可在此 https URL 获取 ...

0 0 0 0 2025/12/12 arXiv:2412.12559v3 夏与凛冬

FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

本文提出了 FinCoT，这是一种结构化的思想链 (CoT) 提示框架，该框架嵌入特定领域的专家财务推理蓝图来指导大型语言模型的行为。我们确定了金融 NLP (FinNLP) 中的三种主要提示风格：(1) 标准提示（零样本）、(2) 非结构化 CoT（自由形式推理）和 (3) 结构化 CoT（具有明确的结构化推理步骤）。之前的工作主要集中在前两个方面，而结构化 CoT 仍未得到充分探索，并且缺乏领域专业知识的整合。因此，我们评估了十个 CFA 式金融领域的所有三种提示方法，并引入 FinCoT 作为第一个包含领域专家蓝图的结构化金融特定提示方法。 FinCoT 将通用模型 Qwen3-8B-Base 的准确性从 63.2% 提高到 80.5%，并将金融专用模型 Fin-R1 (7B) 从 65.7% 提高到 75.7%，同时与结构化 CoT 方法相比，输出长度分别减少了 8.9 倍和 1.16 倍。我们发现 FinCoT 对于缺乏财务后期培训的模型最为有效。我们的研究结果表明，FinCoT 不仅可以提高性能并降低推理成本，而且还可以产生更具可解释性和专家一致的推理轨迹 ...

0 0 0 0 2025/12/12 arXiv:2506.16123v4 hxh123

RISE: Reasoning Enhancement via Iterative Self-Exploration in Multi-hop Question Answering

大型语言模型 (LLM) 在许多领域都表现出色，但仍然面临复杂推理任务的挑战，例如多跳问答 (MHQA)。 MHQA 需要整合来自不同来源的证据，同时管理复杂的逻辑依赖性，这通常会导致推理错误。检索增强生成（RAG）广泛应用于 MHQA 任务，在有效过滤噪声数据和检索所有必要证据方面面临挑战，从而限制了其解决 MHQA 挑战的有效性。为了应对这些挑战，我们提出了 RISE：通过迭代自我探索增强推理能力，这是一个旨在通过迭代自我探索增强模型推理能力的新颖框架。具体来说，RISE 涉及解决 MHQA 任务的三个关键步骤：问题分解、检索然后阅读和自我批评。通过利用持续的自我探索，RISE 识别准确的推理路径，迭代地自我改进模型整合证据、保持逻辑一致性并增强 MHQA 任务性能的能力。对多个 MHQA 基准的大量实验表明，RISE 显着提高了推理准确性和任务性能 ...

0 0 0 0 2025/12/12 arXiv:2505.21940v1 夏与凛冬

Structure-Augmented Reasoning Generation

检索增强生成（RAG）系统在复杂的多跳推理中失败，因为它们依赖于大型语言模型来隐式连接来自非结构化文档集合的信息。这一根本限制源于将检索到的段落视为独立的上下文，而不是认识到实现连贯推理链的复杂关系。我们引入了 SARG（结构增强推理生成），这是一种检索后框架，通过具体化显式推理结构来改变传统的 RAG 管道。 SARG 从检索到的文档中提取{原因、关系、效果}三元组，构建域自适应图，并执行多跳遍历以发现将查询概念与答案联系起来的推理链。与修改检索机制的现有方法不同，SARG 作为与任何 RAG 系统兼容的即插即用推理层运行。跨不同领域的广泛评估：一般 QA、生物医学文献和财务分析表明，SARG 比最先进的 RAG 基线取得了实质性改进。至关重要的是，SARG 还通过显式推理链提供完整的推理可追溯性，解决了当前 RAG 系统中关键的可解释性差距。我们的结果表明，显式结构推理不仅有益，而且对于可靠的复杂问题回答至关重要，为 RAG 的隐式推理瓶颈提供了解决方案 ...

0 0 0 0 2025/12/12 arXiv:2506.08364v3 夏与凛冬

Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation

对比学习（CL）最近在推荐领域推动了一系列富有成效的研究，因为它从原始数据中提取自我监督信号的能力与推荐系统解决数据稀疏问题的需求非常吻合。基于 CL 的推荐模型的典型流程是首先使用结构扰动来增强用户-项目二分图，然后最大化不同图增强之间的节点表示一致性。尽管这种范例被证明是有效的，但性能提升的背后是什么仍然是一个谜。在本文中，我们首先通过实验揭示，在基于 CL 的推荐模型中，CL 通过学习更均匀分布的用户/项目表示来运行，这可以隐式减轻流行度偏差。同时，我们发现，被认为必要的图增强只是起到了微不足道的作用。基于这一发现，我们提出了一种简单的 CL 方法，该方法放弃图增强，而是向嵌入空间添加均匀噪声以创建对比视图。对三个基准数据集的综合实验研究表明，虽然看起来非常简单，但所提出的方法可以平滑地调整学习表示的均匀性，并且在推荐准确性和训练效率方面比基于图增强的方法具有明显的优势。代码在此 https URL 发布 ...

0 0 0 0 2025/12/12 arXiv:2112.08679v4 saya