现有的文本对图像扩散模型难以合成逼真的图像给定的图像,每个文本提示都为特定图像区域提供了详细的描述。为了解决这个问题,我们提出了一种无训练的方法,该方法是一种适应预先训练的文本对图像模型,以处理此类密集字幕,同时提供对场景布局的控制。我们首先分析生成的图像布局与预训练模型的中间注意图之间的关系 ...
0 1 0 2025/09/13 arXiv:2308.12964v1 yisinoya
图像质量评估(IQA)的深度学习方法由于现有数据集的尺寸较小而受到限制。广泛的数据集需要大量资源来生成可发布的内容和准确注释。我们提出了一种系统且可扩展的方法来创建KONIQ-10K,这是迄今为止最大的IQA数据集,由10,073个质量评分的图像组成 ...
0 0 0 2025/09/13 arXiv:1910.06180v2 ReLU
本文介绍了一般机器人操纵的Visuomotor模仿学习政策,该政策会产生精确的,高维的动作,以各种视觉,语言和本体感受的输入为条件。我们利用一致性训练利用流量匹配,以在仅1-2个推理步骤中实现高质量的灵巧动作生成。为了有效地处理各种输入模式,我们提出了DIT-X,这是一种具有自适应交叉注意的扩散 Transformer 体系结构和Adaln-Zero条件,可以在动作 Token 和多模式观察之间进 ...
0 0 0 2025/09/13 arXiv:2509.01819v1 odenkkk
最近的文本到图像生成模型,例如稳定的扩散V3和Flux,取得了显着的进步 ...
0 0 0 2025/09/13 arXiv:2502.00848v2 Donutn
输入空间重建是一个有吸引力的表示范式。尽管重建和产生的解释性可以解释性,但我们确定了通过重建学习与学习学习之间的错位。我们表明,前者将模型的能力分配给数据的子空间,解释了观察到的方差 - 这是一个具有不明智特征的子空间 ...
0 0 0 2025/09/13 arXiv:2402.11337v1 odenkkk
本报告详细介绍了MERL在ICASSP 2025上提交给生成数据增强研讨会的室内冲动响应(RIR)估计的系统,以增加RIR数据(任务1)和改进扬声器距离估计(任务2)。我们首先在外部大规模数据集上预先培训,由房间几何形状调节的神经声场,其中提供了一对RIR和几何形状。然后,通过使用注册数据将神经声场调整为每个目标室,在这里我们利用所提供的室几何形状或从外部数据集检索到的几何形状,具体取决于可用性  ...
0 0 0 2025/09/13 arXiv:2504.14409v1 wenwen
编织是语音增强(SE)的重要子任务,以提高信号的清晰度和质量。但是,它仍然具有挑战性,因为混响与信号高度相关。此外,单渠道SE文献主要集中在混响时间短(通常不到1秒以下)的房间上,较小的房间(低于1000立方米)和相对较短的距离(最大2米) ...
0 0 0 2025/09/13 arXiv:2505.01338v1 wenwen
检索增强的一代(RAG)通过合并外部知识来减轻LLM中的幻觉,但依赖于缺乏结构语义的基于块的检索。 GraphRag方法通过将知识作为实体关联图建模来改善抹布,但仍面临高建筑成本,固定的一次性检索以及对长篇文化推理和及时设计的依赖的挑战。为了应对这些挑战,我们建议通过端到端强化学习(RL)的Graph-R1(Agrage-R1) ...
0 0 0 2025/09/12 arXiv:2507.21892v1 liangliangliang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)