语音情感识别(SER)是预测语音数据情绪标签的基本任务。最近的作品主要集中于使用卷积神经网络〜(CNN)通过将时间变化的光谱特征视为图像来了解固定尺度特征表示的本地注意力图。但是,由于现有CNN的限制,在不同尺度上的丰富情感特征和重要的全球信息无法得到很好的捕获 ...
0 0 0 2025/05/16 arXiv:2204.05571v1 fucs
没有许多替代方案(例如点云,网格,隐式函数和体素)的几何形状的通用3D表示。在这项工作中,我们提出了一种新的,引人注目的替代方案,用于使用一系列横截面闭环来表示形状。所有飞机上的循环构成了组织层次结构,我们将利用自回归形状的综合和编辑 ...
0 0 0 2025/05/16 arXiv:2212.04981v2 happy
遥感图像更改字幕(RSICC)旨在描述语言中多阶段遥感图像之间的表面变化,包括更改对象的对象类别,位置和变化对象的动态(例如,添加或消失) ...
0 1 47 2025/05/16 arXiv:2404.18895v3 momo_curtain
我们介绍了Ming-Lite-Uni,这是一个开源的多模式框架,该框架具有新设计的统一视觉生成器和一款适合统一视觉和语言的本机多模式自动回归模型。具体而言,该项目提供了集成的元震源和M2-OMNI框架的开源实现,同时介绍了新颖的多尺度可学习 Token 和多尺度表示策略。通过利用固定的MLLM和可学习的扩散模型,Ming-Lite-Uni使本机多模式AR模型可以同时执行基于文本图像生成和基于教学的 ...
0 0 0 2025/05/16 arXiv:2505.02471v2 X.K
组成的图像检索(CIR)使用多模式查询将目标图像与参考图像与描述所需修改的文本结合在一起。主要的挑战是有效地融合了此视觉和文本信息。 CIR的当前跨模式特征融合方法表现出意图解释的固有偏见 ...
0 0 0 2025/05/16 arXiv:2504.10995v1 Archer
由注意力机制驱动的 Transformer 构成了大型语言模型 (LLM) 的基础。随着这些模型规模的扩大,高效的 GPU 注意力内核对于高吞吐量和低延迟推理变得至关重要。多样化的 LLM 应用需要灵活且高性能的注意力解决方案 ...
0 0 0 2025/05/16 arXiv:2501.01005v2 hwrabbit
在本文中,我们介绍了 DINO-X,它是 IDEA Research 开发的统一的以对象为中心的视觉模型,具有迄今为止最好的开放世界对象检测性能。 DINO-X 采用与 Grounding DINO 1.5 相同的基于 Transformer 的编码器-解码器架构,以追求开放世界对象理解的对象级表示 ...
0 0 0 2025/05/16 arXiv:2411.14347v3 ppbc
在云系统上托管数据库服务已成为一种常见实践。这导致了数据库工作量的增加,这为模式分析提供了机会。从业务逻辑的角度发现工作量模式非常有利于更好地理解数据库系统的趋势和特征 ...
0 0 0 2025/05/16 arXiv:2307.02626v1 ifzz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)