本文介绍了Javisdit,这是一种新型的关节音频传播扩散 Transformer ,设计用于同步音频效率生成(JAVG)。 Javisdit建立在强大的扩散 Transformer (DIT)体系结构上,能够从开放式用户提示中同时生成高质量的音频和视频内容。为了确保最佳同步,我们通过层次的空间 - 周期性同步先验(Hist-Sypo)估计器引入了细粒的时空比对机制 ...
0 0 0 2025/05/11 arXiv:2503.23377v1 陆三七
测试时间及时调整增强了视觉模型的零击概括,但倾向于忽略推理过程中测试样本之间的相关性。在线测试时间提示调整提供了一种简单的方法来利用先前测试样本中的信息,尽管由于积累错误而有迅速崩溃的风险。为了增强测试时间及时调整,我们提出了DYNAPROMPT,用于动态测试时间及时调整的缩写,利用相关的数据分配信息,同时减少误差积累 ...
0 0 0 2025/05/11 arXiv:2501.16404v1 Rainbow
多模式LLM(MLLM)已成为大型语言模型(LLM)的扩展,从而使各种模式的集成。但是,任何一对一的MLLM都仅限于在单个响应中生成成对模式的“文本 + x”,例如文本 + {image或Audio或Video}。为了解决此限制,我们介绍了蜘蛛,这是一种新颖的有效到达的模式生成(AMMG)框架,它可以生成模态的“文本 + XS”的任意组合,例如文本 + {图像,音频和视频} ...
0 0 0 2025/05/11 arXiv:2411.09439v2 陆三七
分子动力学模拟通过依靠经验潜能提供了分子的机械描述。可以改善使用机器学习方法得出的数据驱动模型的质量和可传递性。在这里,我们提出了Torchmd,这是具有混合经典和机器学习潜力的分子模拟的框架 ...
0 0 0 2025/05/11 arXiv:2012.12106v1 lulus
最近,Flat Minima被证明可有效改善概括和清晰度最小化(SAM)实现最先进的性能。然而,SAM及其随访中讨论的平坦度的当前定义仅限于零阶平坦度(即 ...
0 0 0 2025/05/11 arXiv:2303.03108v3 微生心月
数据混合策略已成功降低了培训语言模型所涉及的成本。在有希望的同时,这种方法却有两个缺陷。首先,它们依赖于预定的数据域(e ...
0 0 0 2025/05/11 arXiv:2505.00358v1 liuweitang
最近,基于深层神经网络的几种模型在重建精度和计算性能方面取得了巨大成功。在这些方法中,在重建之前,使用单个滤波器(通常是双子管插值)将低分辨率(LR)输入图像升级到高分辨率(HR)空间。这意味着超分辨率(SR)操作是在人力资源空间中执行的 ...
0 0 0 2025/05/11 arXiv:1609.05158v2 nmksjx
人工智能的快速发展具有明显的高级语义通信,尤其是在无线图像传输中。但是,大多数现有的方法都难以精确区分和优先考虑图像内容,并且它们没有充分将语义优先级纳入系统设计中。在这项研究中,我们提出了一种称为ASCVIT-JSCC的自适应无线图像传输方案,该方案利用了基于视觉 Transformer 的联合源通道编码(JSCC) ...
0 0 0 2025/05/11 arXiv:2410.17536v1 HaoLiu0209

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)