通过源距离估计(3D SELD)进行声音事件的定位和检测,不仅涉及确定声音类别及其到达方向(DOA),还涉及预测源距离,旨在提供有关声音位置的完整信息。本文提出了一个多阶段视频注意网络(MVANET),用于视听(AV)3D SELD。多阶段音频功能用于自适应捕获视频中声源的空间信息 ...
Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that th ...
在本文中,我们通过在相邻层中的存储器块之间引入跳过连接,提出了改进的进发液序列内存网络(FSMN)体系结构,即Deep-FSMN(DFSMN)。这些跳过连接可以使信息流跨不同的层,从而减轻了建立非常深的结构时的梯度消失问题。结果,DFSMN从这些跳过连接和深层结构中显着受益 ...
设计高效有效的建筑式骨架一直是研究工作旨在增强基础模型能力的核心。受到注意偏见的人类认知现象的启发 - 自然倾向,即优先考虑某些事件或刺激,重新概念化神经体系结构,包括变形金刚,泰坦和现代线性的复发性神经网络作为缔合性记忆模块,以使用内部目标来了解钥匙和值的映射,以提及注意力为注意力。令人惊讶的是,我们观察到,大多数现有序列模型都利用(1)点产物相似性,或(2)L2回归目标作为其注意力偏见 ...
专家(MOE)模型的混合是大型语言模型(LLM)的稀疏变体,旨在在智能能力和计算开销之间保持更好的平衡。尽管有好处,但MOE仍然太昂贵了,无法在资源受限的边缘设备上部署,尤其是在设备推理服务的需求中。最近的研究工作通常应用模型压缩技术,例如量化,修剪和合并,以限制MOE的复杂性 ...
在过去的十年中,驾驶员分心已成为严重交通事故的重要原因。尽管视力驱动驱动器监测系统的发展不断增长,但缺乏全面的感知数据集限制了道路安全和交通安全。在本文中,我们提出了一个辅助驾驶感知数据集(AIDE),该数据集在自然主义的情况下考虑了车辆内部和外部的上下文信息 ...
文本到图像(T2I)的最新进展提高了综合结果,但在布局控制和产生全向全景图像中仍然存在挑战。密集的T2i(DT2I)和球形T2I(ST2I)模型解决了这些问题,但到目前为止尚无统一的方法。琐碎的方法,例如提示DT2I模型生成全景图,无法在边界处产生适当的球形变形和无缝过渡 ...
文本到图像(T2I)扩散模型的最新进展已实现了对各种属性的显着控制,但精确的颜色规范仍然是一个基本挑战。现有的方法(例如ColorPeel)依赖于模型个性化,需要进一步的优化和限制指定任意颜色的灵活性。在这项工作中,我们介绍了ColorWave,这是一种新型的无培训方法,可在不进行微调的情况下在扩散模型中实现精确的RGB级颜色控制 ...