一译 —— 文档和论文翻译、对照阅读、讨论和社区

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

尽管基于 Transformer 的语音自学学习（SSL）模型的表现出色，但它们的较大参数大小和计算成本使它们不太利用。在这项研究中，我们建议通过提炼语音时间关系（Star）来压缩语音SSL模型。与以前的作品直接匹配每个语音框架的表示形式不同，星星蒸馏传递了语音框架之间的时间关系，这更适合容量有限的轻量级学生 ...

0 0 0 2025/05/21 arXiv:2312.09040v2 irving

Neuron to Graph: Interpreting Language Model Neurons at Scale

大语言模型（LLM）的进步导致了显着的能力，但它们的内在机制仍然很少知道。要了解这些模型，我们需要揭示单个神经元的功能及其对网络的贡献。本文介绍了一种新型的自动化方法，旨在扩展LLM中各种神经元的可解释性技术，以使其更容易解释和最终安全 ...

0 0 0 2025/05/21 arXiv:2305.19911v1 UUU

Scalable Chain of Thoughts via Elastic Reasoning

大型推理模型（LRMS）通过产生扩展的思想链（COT）在复杂任务上取得了显着进步。但是，它们不受控制的产出长度对现实部署构成了重大挑战，在这些部署中，严格限制了 Token ，延迟或计算的推理时间预算。我们提出了弹性推理，这是一个可扩展的思想链的新型框架，将推理明确分为两个阶段（思想和解决方案），并独立分配了预算 ...

0 0 0 2025/05/21 arXiv:2505.05315v1 ee_zhuy

A Vision Check-up for Language Models

学习建模字符串之间的关系的学习如何教授大型语言模型（LLM）有关视觉世界的？我们系统地评估了LLMS生成和识别各种视觉概念增加复杂性的能力，然后演示如何使用文本模型来培训初步的视觉表示学习系统。由于语言模型缺乏将视觉信息作为像素的消耗或输出视觉信息的能力，因此我们使用代码来表示研究中的图像。尽管LLM生成的图像看起来不像自然图像，但图像产生的结果以及模型校正这些生成的图像的能力表明，字符串的精确建 ...

0 0 0 2025/05/21 arXiv:2401.01862v1 2024_caobotian

Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech Synthesis

会话语音综合（CSS）旨在使综合语音与用户与用户互动的情感和风格背景相结合，以实现同理心。当前的生成CSS模型由于情绪感知不足和多余的离散语音编码而面临可解释性限制。为了解决上述问题，我们提出了一个模仿人类认知的三阶段框架：情感理解从对话历史中得出了情境感知的情感描述；语义理解通过序列化预测产生紧凑的语义代码。通过整合这两个组件，善解人意的渲染构成了表达性语音 ...

0 0 0 2025/05/21 arXiv:2505.12597v1 liangmin0020

ONCache: A Cache-Based Low-Overhead Container Overlay Network

近年来见证了集装箱的广泛采用。尽管容器简化并加速了应用程序开发，但现有的容器网络技术要么产生大量的开销，因此损害了分布式应用程序的性能，或者失去了灵活性或兼容性，这阻碍了生产中广泛的部署。我们仔细分析了覆盖网络的内核数据路径，量化了数据路径的每个段所消耗的时间，并与裸机相比，在覆盖网络中识别\ emph {额外的开销} ...

0 1 0 2025/05/21 arXiv:2305.05455v3 minicoke

Wan: Open and Advanced Large-Scale Video Generative Models

该报告介绍了Wan，这是一套全面的视频基础模型，旨在突破视频生成的界限。 WAN建立在主流扩散 Transformer 范式的基础上，通过一系列创新，包括我们的新型VAE，可扩展的预训练策略，大规模数据策划和自动化评估指标，从而在生成能力方面取得了重大进步。这些贡献共同提高了模型的性能和多功能性 ...

0 1 0 2025/05/21 arXiv:2503.20314v2 wuyangecit

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

视觉理解本质上是意图驱动的 - 人类根据其目标选择性地专注于场景的不同区域。大型多模型模型（LMM）的最新进展使这种意图通过自然语言可以灵活地表达，从而可以指导视觉推理过程。诸如视觉链的框架之类的框架已经证明了合并明确的推理步骤的好处，该步骤在回答查询之前预测了焦点区域 ...

0 0 0 2025/05/21 arXiv:2503.07523v2 fulyace

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）