许多真实的应用程序,例如交互式照片修饰,艺术内容创建和产品设计,都需要灵活且迭代的图像编辑。但是,现有的图像编辑方法主要集中于在单个步骤中实现所需的修改,该步骤通常与模棱两可的用户意图,复杂的转换或进行渐进式改进的需求斗争。结果,这些方法经常产生不一致的结果或无法满足用户期望 ...
0 0 0 2025/09/19 arXiv:2505.04320v1 smallz
这项工作研究了很少的对象计数的问题,该问题计算了查询图像中出现的示例对象的数量(即由一个或几个支持图像描述) ...
0 0 0 2025/09/19 arXiv:2201.08959v5 ws1336
大多数文本视频检索方法都利用文本图像预训练 CLIP 作为骨干,结合了复杂的模块,导致较高的计算开销。因此,许多研究都集中在有效的微调上。有效适应的主要挑战来自图像和视频模式之间的固有差异 ...
0 0 0 2025/09/19 arXiv:2409.01156v2 Jht
单发语音转换(VC)可以通过语音表示分解可以有效地实现跨任意说话者进行转换的转换。现有的工作通常忽略了训练过程中不同语音表示形式之间的相关性,这会导致内容信息泄漏到说话者表示中,从而降低VC性能。为了减轻此问题,我们采用矢量量化(VQ)来编码内容,并引入互助指标,作为培训期间的相关度量,以通过以不受监督的方式减少其相互依存关系来适当地分解内容,说话者和音调表示 ...
0 0 0 2025/09/19 arXiv:2106.10132v1 jack_j
我们旨在通过强化学习(RL)提高语言模型的推理能力。诸如DeepSeek-R1(例如DeepSeek-R1)(例如DeepSeek-R1)的最新RL培训模型已证明了数学和编码任务的推理能力。但是,先前的研究表明,单独使用RL来改善固有的困难任务推理的效果较低 ...
0 0 0 2025/09/19 arXiv:2506.06632v1 dqyzhwk
GUI代理旨在在移动/PC设备上实现自动操作,这是实现人工通用情报的重要任务。 VLMS的快速发展加速了GUI代理的发展,因为它们在视觉理解和任务计划中的强大能力。但是,由于操作轨迹的稀缺,交互式基础架构的可用性以及基础模型中初始功能的限制,建造GUI代理仍然是一项具有挑战性的任务 ...
0 0 0 2025/09/19 arXiv:2508.21767v1 dqyzhwk
变性自动编码器(VAE)对于基于扩散的一代等大规模音频任务至关重要。但是,现有的开源模型通常忽略了训练过程中听觉感知方面的质疑,从而导致阶段准确性和立体空间表示。为了应对这些挑战,我们提出了{\ epsilon} ar-vae,这是一种开源音乐信号重建模型,可重新考虑和优化VAE培训范式 ...
0 0 0 2025/09/19 arXiv:2509.14912v1 wenzhanwujian
SRGB图像现在是计算机视觉研究中预训练视觉模型的主要选择,因为它们的易于获取和有效的存储。同时,原始图像的优势在于在可变的现实世界中挑战照明条件下,其丰富的物理信息。对于直接基于相机原始数据的计算机视觉任务,大多数现有研究都采用将图像信号处理器(ISP)与后端网络集成的方法,但经常忽略ISP阶段和后续网络之间的相互作用功能 ...
0 0 0 2025/09/19 arXiv:2408.14802v1 baiyu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)