一译 —— 文档和论文翻译、对照阅读、讨论和社区

RVAE-EM: Generative speech dereverberation based on recurrent variational auto-encoder and convolutive transfer function

在室内场景中，混响是降低言语质量和可理解性的关键因素。在这项工作中，我们提出了一种生成的替代方法。我们的方法是基于利用经常性变异自动编码器（RVAE）网络的概率模型和卷积转移函数（CTF）近似 ...

0 0 0 2025/07/24 arXiv:2309.08157v2 wenwen

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

在预训练的标准大型视觉模型（LVLM）中，该模型通常通过下一步的预测（NTP）最大化图像条件上标题的关节概率；但是，由于只有一小部分字幕 Token 直接与视觉内容有关，因此这种天真的NTP无意间适合噪声并增加幻觉的风险。我们提出了一种简单的视觉语言预训练方法，该方法通过从重要性采样框架中借鉴NTP损失中的差异加权来解决与图像相关的 Token 的优先级。 Prior引入了参考模型 - 仅文本大型 ...

0 0 0 2025/07/24 arXiv:2505.08971v1 haoyi199815

KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs

检索增强的生成（RAG）通过基础外部知识的响应来提高事实准确性。但是，现有方法通常依赖于单个来源，即非结构化的文本或结构化知识。此外，它们缺乏激活相关知识的认知灵感机制 ...

0 0 0 2025/07/24 arXiv:2506.09542v1 aulisa

Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice

同时解释（SI）代表了翻译行业中最艰巨的前沿之一，产品级自动系统长期困扰着棘手的挑战：次要转录和翻译质量，缺乏实时语音产生，多演讲者混乱，尤其是在长期的论述中翻译的语音膨胀。在这项研究中，我们介绍了Seed-LiveInterpret 2.0，这是一种端到端的SI模型，可提供具有语音克隆功能的高保真，超低延迟语音到语音的发电 ...

0 0 0 2025/07/24 arXiv:2507.17527v1 13724122396

MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

我们提出了多路动态密集（MUDD）连接，这是一种解决残差连接局限并增强 Transformer 中跨层信息流的局限性的简单而有效的方法。与静态和共享连接权重的现有密集连接方法不同，MUDD会根据每个序列位置处的隐藏状态以及 Transformer 块的每个分离输入流（查询，密钥，值或残差）动态生成连接权重。可以将Mudd连接无缝集成到任何 Transformer 架构中以创建泥浆构造器 ...

0 0 0 2025/07/24 arXiv:2502.12170v2 kkkk

The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts

构成传统 Transformer 模型的计算工作负载截然不同。多头注意力（MHA）是记忆的，算术强度低，而前馈层是计算结合的。这种二分法长期以来一直激发了对专业硬件的研究，以减轻MHA瓶颈 ...

0 0 0 2025/07/24 arXiv:2507.15465v1 jane88

Mesh Silksong: Auto-Regressive Mesh Generation as Weaving Silk

我们介绍了网状丝绸，这是一种量身定制的紧凑而有效的网格代表，以自动回火方式类似于丝绸编织。现有的网格 Token 化方法总是用重复的顶点 Token 产生 Token 序列，从而浪费网络能力。因此，我们的方法通过仅访问每个网格角度来使网格顶点降低了每个网格顶点，将 Token 序列的冗余降低了50 \％，并达到了最新的压缩率约为22 \％ ...

0 0 0 2025/07/24 arXiv:2507.02477v2 happy

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

在本文中，我们提出了 ...

0 0 0 2025/07/24 arXiv:2306.07691v2 longhaonan

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）