在室内场景中,混响是降低言语质量和可理解性的关键因素。在这项工作中,我们提出了一种生成的替代方法。我们的方法是基于利用经常性变异自动编码器(RVAE)网络的概率模型和卷积转移函数(CTF)近似 ...
在预训练的标准大型视觉模型(LVLM)中,该模型通常通过下一步的预测(NTP)最大化图像条件上标题的关节概率;但是,由于只有一小部分字幕 Token 直接与视觉内容有关,因此这种天真的NTP无意间适合噪声并增加幻觉的风险。我们提出了一种简单的视觉语言预训练方法,该方法通过从重要性采样框架中借鉴NTP损失中的差异加权来解决与图像相关的 Token 的优先级。 Prior引入了参考模型 - 仅文本大型 ...
检索增强的生成(RAG)通过基础外部知识的响应来提高事实准确性。但是,现有方法通常依赖于单个来源,即非结构化的文本或结构化知识。此外,它们缺乏激活相关知识的认知灵感机制 ...
同时解释(SI)代表了翻译行业中最艰巨的前沿之一,产品级自动系统长期困扰着棘手的挑战:次要转录和翻译质量,缺乏实时语音产生,多演讲者混乱,尤其是在长期的论述中翻译的语音膨胀。在这项研究中,我们介绍了Seed-LiveInterpret 2.0,这是一种端到端的SI模型,可提供具有语音克隆功能的高保真,超低延迟语音到语音的发电 ...
我们提出了多路动态密集(MUDD)连接,这是一种解决残差连接局限并增强 Transformer 中跨层信息流的局限性的简单而有效的方法。与静态和共享连接权重的现有密集连接方法不同,MUDD会根据每个序列位置处的隐藏状态以及 Transformer 块的每个分离输入流(查询,密钥,值或残差)动态生成连接权重。可以将Mudd连接无缝集成到任何 Transformer 架构中以创建泥浆构造器 ...
构成传统 Transformer 模型的计算工作负载截然不同。多头注意力(MHA)是记忆的,算术强度低,而前馈层是计算结合的。这种二分法长期以来一直激发了对专业硬件的研究,以减轻MHA瓶颈 ...
我们介绍了网状丝绸,这是一种量身定制的紧凑而有效的网格代表,以自动回火方式类似于丝绸编织。现有的网格 Token 化方法总是用重复的顶点 Token 产生 Token 序列,从而浪费网络能力。因此,我们的方法通过仅访问每个网格角度来使网格顶点降低了每个网格顶点,将 Token 序列的冗余降低了50 \%,并达到了最新的压缩率约为22 \% ...
在本文中,我们提出了 ...