一译 —— 文档和论文翻译、对照阅读、讨论和社区

Deep-FSMN for Large Vocabulary Continuous Speech Recognition

在本文中，我们通过在相邻层中的存储器块之间引入跳过连接，提出了改进的进发液序列内存网络（FSMN）体系结构，即Deep-FSMN（DFSMN）。这些跳过连接可以使信息流跨不同的层，从而减轻了建立非常深的结构时的梯度消失问题。结果，DFSMN从这些跳过连接和深层结构中显着受益 ...

0 0 0 2025/04/27 arXiv:1803.05030v1 weanhear

It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

设计高效有效的建筑式骨架一直是研究工作旨在增强基础模型能力的核心。受到注意偏见的人类认知现象的启发 - 自然倾向，即优先考虑某些事件或刺激，重新概念化神经体系结构，包括变形金刚，泰坦和现代线性的复发性神经网络作为缔合性记忆模块，以使用内部目标来了解钥匙和值的映射，以提及注意力为注意力。令人惊讶的是，我们观察到，大多数现有序列模型都利用（1）点产物相似性，或（2）L2回归目标作为其注意力偏见 ...

0 0 0 2025/04/27 arXiv:2504.13173v1 takkeri

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving

专家（MOE）模型的混合是大型语言模型（LLM）的稀疏变体，旨在在智能能力和计算开销之间保持更好的平衡。尽管有好处，但MOE仍然太昂贵了，无法在资源受限的边缘设备上部署，尤其是在设备推理服务的需求中。最近的研究工作通常应用模型压缩技术，例如量化，修剪和合并，以限制MOE的复杂性 ...

0 0 0 2025/04/27 arXiv:2504.15299v1 anhao

AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception

在过去的十年中，驾驶员分心已成为严重交通事故的重要原因。尽管视力驱动驱动器监测系统的发展不断增长，但缺乏全面的感知数据集限制了道路安全和交通安全。在本文中，我们提出了一个辅助驾驶感知数据集（AIDE），该数据集在自然主义的情况下考虑了车辆内部和外部的上下文信息 ...

0 0 0 2025/04/27 arXiv:2307.13933v2 13366395289

Spherical Dense Text-to-Image Synthesis

文本到图像（T2I）的最新进展提高了综合结果，但在布局控制和产生全向全景图像中仍然存在挑战。密集的T2i（DT2I）和球形T2I（ST2I）模型解决了这些问题，但到目前为止尚无统一的方法。琐碎的方法，例如提示DT2I模型生成全景图，无法在边界处产生适当的球形变形和无缝过渡 ...

0 0 0 2025/04/27 arXiv:2502.12691v3 yisinoya

Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models

文本到图像（T2I）扩散模型的最新进展已实现了对各种属性的显着控制，但精确的颜色规范仍然是一个基本挑战。现有的方法（例如ColorPeel）依赖于模型个性化，需要进一步的优化和限制指定任意颜色的灵活性。在这项工作中，我们介绍了ColorWave，这是一种新型的无培训方法，可在不进行微调的情况下在扩散模型中实现精确的RGB级颜色控制 ...

0 0 0 2025/04/27 arXiv:2503.09864v1 yisinoya

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

图像条件的生成方法（例如深度和巧妙的条件方法）表现出显着的精确图像合成能力。但是，现有模型仍然难以准确控制多个实例（或区域）的内容。即使是磁通量和3DIS等最新模型也面临着挑战，例如实例之间的属性泄漏，这限制了用户控制 ...

0 0 0 2025/04/27 arXiv:2503.12885v2 yisinoya

Free-Lunch Color-Texture Disentanglement for Stylized Image Generation

文本对图像（T2I）扩散模型的最新进展已转化为图像的生成，仅使用几个样式参考图像就可以在程式化生成中取得重大进展。但是，由于控制多种样式属性（例如颜色和纹理）的挑战，当前基于扩散的方法与精细颗粒样式定制相比。本文介绍了第一种无调的方法，以实现风格化的T2I生成中的自由颜色颜色纹理删除，以满足对无独立控制样式元素的需求，以解决无endentangled的样式化图像生成（disig）问题 ...

0 0 0 2025/04/27 arXiv:2503.14275v2 yisinoya

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）