基于 Transformer 的语音自我监督学习(SSL)模型,例如休伯特,在各种语音处理任务中表现出令人惊讶的表现。但是,语音SSL模型中的大量参数需要压缩到更紧凑的模型,以便在学术界或小型公司中使用更广泛的用法。在这项研究中,我们建议在 Transformer 层上重用注意图,以在保留层数的同时删除键和查询参数 ...
0 0 0 2025/05/21 arXiv:2305.11685v2 irving
低射线对象反驳使用很少或没有带注释的示例估算图像中对象的数量。对象是通过将它们与原型匹配的,该对象通过无监督的图像范围的对象外观聚合构建。由于潜在的物体外观,现有的方法通常会导致过度概括和假阳性检测 ...
0 0 0 2025/05/21 arXiv:2409.18686v2 xueyoo
尽管基于 Transformer 的语音自学学习(SSL)模型的表现出色,但它们的较大参数大小和计算成本使它们不太利用。在这项研究中,我们建议通过提炼语音时间关系(Star)来压缩语音SSL模型。与以前的作品直接匹配每个语音框架的表示形式不同,星星蒸馏传递了语音框架之间的时间关系,这更适合容量有限的轻量级学生 ...
0 0 0 2025/05/21 arXiv:2312.09040v2 irving
大语言模型(LLM)的进步导致了显着的能力,但它们的内在机制仍然很少知道。要了解这些模型,我们需要揭示单个神经元的功能及其对网络的贡献。本文介绍了一种新型的自动化方法,旨在扩展LLM中各种神经元的可解释性技术,以使其更容易解释和最终安全 ...
0 0 0 2025/05/21 arXiv:2305.19911v1 UUU
大型推理模型(LRMS)通过产生扩展的思想链(COT)在复杂任务上取得了显着进步。但是,它们不受控制的产出长度对现实部署构成了重大挑战,在这些部署中,严格限制了 Token ,延迟或计算的推理时间预算。我们提出了弹性推理,这是一个可扩展的思想链的新型框架,将推理明确分为两个阶段(思想和解决方案),并独立分配了预算 ...
0 0 0 2025/05/21 arXiv:2505.05315v1 ee_zhuy
学习建模字符串之间的关系的学习如何教授大型语言模型(LLM)有关视觉世界的?我们系统地评估了LLMS生成和识别各种视觉概念增加复杂性的能力,然后演示如何使用文本模型来培训初步的视觉表示学习系统。由于语言模型缺乏将视觉信息作为像素的消耗或输出视觉信息的能力,因此我们使用代码来表示研究中的图像。尽管LLM生成的图像看起来不像自然图像,但图像产生的结果以及模型校正这些生成的图像的能力表明,字符串的精确建 ...
0 0 0 2025/05/21 arXiv:2401.01862v1 2024_caobotian
会话语音综合(CSS)旨在使综合语音与用户与用户互动的情感和风格背景相结合,以实现同理心。当前的生成CSS模型由于情绪感知不足和多余的离散语音编码而面临可解释性限制。为了解决上述问题,我们提出了一个模仿人类认知的三阶段框架:情感理解从对话历史中得出了情境感知的情感描述;语义理解通过序列化预测产生紧凑的语义代码。通过整合这两个组件,善解人意的渲染构成了表达性语音 ...
0 0 0 2025/05/21 arXiv:2505.12597v1 liangmin0020
近年来见证了集装箱的广泛采用。尽管容器简化并加速了应用程序开发,但现有的容器网络技术要么产生大量的开销,因此损害了分布式应用程序的性能,或者失去了灵活性或兼容性,这阻碍了生产中广泛的部署。我们仔细分析了覆盖网络的内核数据路径,量化了数据路径的每个段所消耗的时间,并与裸机相比,在覆盖网络中识别\ emph {额外的开销} ...
0 1 0 2025/05/21 arXiv:2305.05455v3 minicoke

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)