日常生活中广泛需要文本引导的图像编辑,从个人使用到 Photoshop 等专业应用程序。然而,现有的方法要么是零样本,要么是在自动合成的数据集上进行训练,其中包含大量噪声。因此,它们仍然需要大量的手动调整才能在实践中产生理想的结果 ...
0 0 0 2025/04/29 arXiv:2306.10012v3 17733052961
传统研究强调了上下文信息在改善套件性能中的重要性。因此,基于深度学习的疗程方法深入设计了设计池或基于亲和力的上下文聚合模块,以取得卓越的结果。但是,这些模块不能很好地处理训练和推断过程中图像大小差异引起的上下文量表变化,从而导致垫子性能降解 ...
0 0 0 2025/04/29 arXiv:2304.01171v2 mll1101
向量搜索在许多现实世界应用中起着至关重要的作用。除了单矢量搜索外,多矢量搜索对于当今的多模式和多功能方案变得很重要。在多矢量数据库中,每一行都是一个项目,每一列代表项目的特征,每个单元格是一个高维矢量 ...
0 0 0 2025/04/29 arXiv:2504.20018v1 mmmp
了解连续的视频流在包括体现的AI和自动驾驶在内的实时应用中起着基本作用。与离线视频理解不同,流视频理解需要通过框架处理视频流,保留历史信息并使低延迟的能力此HTTP URL解决这些挑战,我们的主要贡献是三倍。 (i)我们通过将因果时间关注纳入预先训练的视觉 Transformer 中,开发出一种新型的流视频主链,称为流媒体 ...
0 0 0 2025/04/29 arXiv:2504.20041v1 wonders
大型语言模型具有集成各种数据类型的巨大潜力,例如文本文档和数据库记录,用于高级分析。但是,混合文本和数值数据提出了重大挑战。 LLM需要处理和交叉引用实体和数字,处理数据不一致和冗余,并开发计划功能,例如构建用于管理复杂数据查询的工作记忆 ...
0 0 0 2025/04/29 arXiv:2402.10979v2 Abidalswark
大型模型(例如大型语言模型(LLM)和视觉语言模型(VLM))改变了人工智能,在自然语言处理,计算机视觉和多模式学习中的应用程序。但是,完全微调这些模型仍然昂贵,需要广泛的计算资源,内存和特定于任务的数据。参数有效的微调(PEFT)已成为一种有希望的解决方案,它允许通过仅更新一小部分参数来调整大型模型以下游任务 ...
0 0 0 2025/04/29 arXiv:2504.14117v1 kkkrd
在本文中,我们提出了Aishell-4,这是由8通道圆形麦克风阵列收集的相当大的真实录制的普通话数据集,用于在会议场景中用于语音处理。该数据集由211次记录的会议组成,每个会议包含4至8个发言人,总长度为120小时。该数据集旨在在三个方面弥合多演讲者处理和实际应用方案的先进研究 ...
0 0 0 2025/04/29 arXiv:2104.03603v4 13724122396
常规的ASR系统使用框架级音素后部进行力对准(FA)并提供时间戳,而端到端ASR系统(尤其是基于AED)的功能不足。本文提议在非自动回报ASR模型 -  paraformer中使用连续的集成〜(CIF)机制来执行时间戳预测〜(TP)。在CIF的火灾场所偏见问题上,我们进行了后期处理策略,包括Fire-Delay和Silence插入 ...
0 0 0 2025/04/29 arXiv:2301.12343v1 13724122396

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)