一译 —— 文档和论文翻译、对照阅读、讨论和社区

MVANet: Multi-Stage Video Attention Network for Sound Event Localization and Detection with Source Distance Estimation

通过源距离估计（3D SELD）进行声音事件的定位和检测，不仅涉及确定声音类别及其到达方向（DOA），还涉及预测源距离，旨在提供有关声音位置的完整信息。本文提出了一个多阶段视频注意网络（MVANET），用于视听（AV）3D SELD。多阶段音频功能用于自适应捕获视频中声源的空间信息 ...

0 0 0 2025/04/27 arXiv:2411.14153v1 liuyangv

Dynamic Diffusion Transformer

Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that th ...

0 0 0 2025/04/27 arXiv:2410.03456v2 11123

Deep-FSMN for Large Vocabulary Continuous Speech Recognition

在本文中，我们通过在相邻层中的存储器块之间引入跳过连接，提出了改进的进发液序列内存网络（FSMN）体系结构，即Deep-FSMN（DFSMN）。这些跳过连接可以使信息流跨不同的层，从而减轻了建立非常深的结构时的梯度消失问题。结果，DFSMN从这些跳过连接和深层结构中显着受益 ...

0 0 0 2025/04/27 arXiv:1803.05030v1 weanhear

It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

设计高效有效的建筑式骨架一直是研究工作旨在增强基础模型能力的核心。受到注意偏见的人类认知现象的启发 - 自然倾向，即优先考虑某些事件或刺激，重新概念化神经体系结构，包括变形金刚，泰坦和现代线性的复发性神经网络作为缔合性记忆模块，以使用内部目标来了解钥匙和值的映射，以提及注意力为注意力。令人惊讶的是，我们观察到，大多数现有序列模型都利用（1）点产物相似性，或（2）L2回归目标作为其注意力偏见 ...

0 0 0 2025/04/27 arXiv:2504.13173v1 takkeri

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving

专家（MOE）模型的混合是大型语言模型（LLM）的稀疏变体，旨在在智能能力和计算开销之间保持更好的平衡。尽管有好处，但MOE仍然太昂贵了，无法在资源受限的边缘设备上部署，尤其是在设备推理服务的需求中。最近的研究工作通常应用模型压缩技术，例如量化，修剪和合并，以限制MOE的复杂性 ...

0 0 0 2025/04/27 arXiv:2504.15299v1 anhao

AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception

在过去的十年中，驾驶员分心已成为严重交通事故的重要原因。尽管视力驱动驱动器监测系统的发展不断增长，但缺乏全面的感知数据集限制了道路安全和交通安全。在本文中，我们提出了一个辅助驾驶感知数据集（AIDE），该数据集在自然主义的情况下考虑了车辆内部和外部的上下文信息 ...

0 0 0 2025/04/27 arXiv:2307.13933v2 13366395289

Spherical Dense Text-to-Image Synthesis

文本到图像（T2I）的最新进展提高了综合结果，但在布局控制和产生全向全景图像中仍然存在挑战。密集的T2i（DT2I）和球形T2I（ST2I）模型解决了这些问题，但到目前为止尚无统一的方法。琐碎的方法，例如提示DT2I模型生成全景图，无法在边界处产生适当的球形变形和无缝过渡 ...

0 0 0 2025/04/27 arXiv:2502.12691v3 yisinoya

Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models

文本到图像（T2I）扩散模型的最新进展已实现了对各种属性的显着控制，但精确的颜色规范仍然是一个基本挑战。现有的方法（例如ColorPeel）依赖于模型个性化，需要进一步的优化和限制指定任意颜色的灵活性。在这项工作中，我们介绍了ColorWave，这是一种新型的无培训方法，可在不进行微调的情况下在扩散模型中实现精确的RGB级颜色控制 ...

0 0 0 2025/04/27 arXiv:2503.09864v1 yisinoya

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）