(llm)(llm)强大的推理能力。然而,clip)。我们的研究表明,最近多模式llm(mllm)的视觉能力仍然表现出系统性缺陷... ...
0 1 0 2025/07/16 arXiv:2401.06209v2 felixslu
本文介绍了 F5-TTS,这是一种基于扩散 Transformer  (DiT) 流匹配的完全非自回归文本转语音系统。不需要时长模型、文本编码器、音素对齐等复杂的设计,只需将文本输入用填充标记填充到与输入语音相同的长度,然后进行去噪以进行语音生成,这最初被E2证明是可行的语音合成。然而,E2 TTS 的原始设计由于其收敛速度慢且鲁棒性低而难以遵循 ...
0 0 3 2025/07/16 arXiv:2410.06885v3 lichenbook
Vision Transformers提供了最先进的性能,但其固定的计算预算阻止了在异质硬件中可扩展的部署。最近的嵌套 Transformer 体系结构通过将嵌套子网嵌入单个模型中以启用可扩展推理来减轻这种情况。但是,这些模型将相同数量的计算分配给所有输入,无论其复杂性如何,这会导致效率低下 ...
0 0 0 2025/07/16 arXiv:2507.10800v1 haoyi199815
多模式表示学习从根本上讲是将无与伦比的模式转化为可比表示的。虽然先前的研究主要致力于通过针对性的学习目标和模型架构明确调整这些表示形式,但最近的一项工作发现,具有独立训练的量表和性能的独立训练的单峰模型可以彼此隐含地对齐。这些发现引发了有关多模式学习中对齐表示的出现的基本问题 ...
0 0 0 2025/07/16 arXiv:2502.16282v2 13080420360
工业制造中异常检查的性能受到异常数据的稀缺性的限制。为了克服这一挑战,研究人员已经开始采用异常生成方法来增强异常数据集。但是,现有的异常产生方法在产生的异常情况下的多样性有限,并难以实现这种异常现象与原始图像的无缝混合 ...
0 0 0 2025/07/16 arXiv:2408.13509v3 ggggggsm
随着专业硬件和新编程语言的兴起,代码优化已将其重点转移到促进数据局部性上。大多数生产级编译器都采用以控制为中心的心态 - 指令驱动的优化增强了基于标量的数据流 - 而其他方法则提供了特定领域的特定和通用数据运动最小化,这可能会错过重要的控制流优化。由于两种表示不可交值,因此用户必须选择一个表示 ...
0 0 0 2025/07/16 arXiv:2306.00366v1 lee_e
尽管有自主性代理推理的承诺,但由于不受限制的LLM驱动的结构,现有的工作流生成方法经常产生脆弱的,不可阻止的计划。我们介绍了Mermaidflow,这是一个框架,该框架通过安全限制的图表演变重新定义了代理搜索空间。 Mermaidflow以Mermaid使用Mermaid(一种结构化且人性化的图形语言)表示工作流程作为可验证的中间表示 ...
0 0 0 2025/07/16 arXiv:2505.22967v1 15966829631
增加对计算技术的投资和硅技术的进步推动了高级驾驶员援助系统(ADAS)和相应的SOC开发的快速增长。 ADAS SOC代表由CPU,GPU和人工智能(AI)加速器组成的异质体系结构。为了确保其安全性和可靠性,它必须处理从多个冗余来源收集的大量原始数据,例如高清摄像机,雷达和激光镜头,才能正确识别对象并及时做出正确的决定 ...
0 0 0 2025/07/16 arXiv:2209.05731v1 jane88

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)