可控性已成为值得信赖的机器学习的关键方面,使学习者能够满足预定义的目标并在测试时间动态适应,而无需随着目标的转移而进行重新训练。我们提供了可控学习(CL)的正式定义,并在信息检索(IR)中讨论了信息需求通常是复杂且动态性的应用。该调查根据可控的内容对CL进行分类(e ...
0 1 0 2025/09/12 arXiv:2407.06083v3 haifengliu
世界建模已成为AI研究的基石,使代理商能够理解,代表和预测他们所居住的动态环境。尽管先前的工作在很大程度上强调了2D图像和视频数据的生成方法,但它们忽略了利用本机3D和4D表示的快速增长的工作,例如RGB-D图像,占用网格和LIDAR点云用于大规模场景建模。同时,缺乏对``世界模型''的标准化定义和分类法,导致文献中的主张分散,有时甚至不一致 ...
0 0 0 2025/09/12 arXiv:2509.07996v2 MarxZhao
Interactive image synthesis from user-guided input is a challenging task when users wish to control the scene structure of a generated image with this http URL remarkable progress has been made on lay ...
0 0 0 2025/09/11 arXiv:2203.02104v3 yisinoya
扩散 Transformer (DITS)主导了视频生成,但它们的高计算成本严重限制了现实世界的适用性,通常需要数十分钟即使在高性能GPU上也会生成几秒钟的视频。这种低效率主要来自3D的二次计算复杂性,相对于上下文长度。在本文中,我们提出了一个称为稀疏视频原(SVG)的无训练框架,该框架利用3D的固有稀疏性充分注意提高推理效率 ...
0 0 0 2025/09/11 arXiv:2502.01776v2 wubukeneng
随着最近在学习深度生成模型方面取得的显着进展,开发用于从可重构输入进行可控图像合成的模型变得越来越有趣。本文重点关注最近出现的一项任务,即布局到图像,以学习能够从空间布局(即空间布局)合成照片级真实感图像的生成模型... ...
0 1 0 2025/09/11 arXiv:2003.11571v2 bnexx
布局到图像生成是指基于语义布局综合照片真实图像的任务。在本文中,我们提出了LayoutDiffuse,该LayoutDiffuse适用于在大规模图像或文本图像数据集上预测的基础扩散模型,以进行布局至图像生成。通过基于布局的关注和任务意识提示,通过采用新型的神经适配器,我们的方法有效地训练了具有高感知质量和布局对齐的图像,并且需要更少的数据 ...
0 1 0 2025/09/11 arXiv:2302.08908v1 yisinoya
最近的文本到图像扩散模型在生成高质量图像方面已经达到了前所未有的水平。但是,他们对文本提示的独家依赖通常在对图像组成的精确控制方面通常不足。在本文中,我们提出了Loco,这是一种用于布局到图像合成的无训练方法,在生成与文本提示和布局指令一致的高质量图像方面擅长 ...
0 1 0 2025/09/11 arXiv:2311.12342v3 yisinoya
尽管大视觉语言模型(LVLM)在视觉理解方面表现出色,但它们偶尔会产生不正确的输出。虽然具有强化学习或测试时间扩展的奖励模型 (RM) 提供了提高生成质量的潜力,但仍然存在一个关键差距:用于 LVLM 的公开可用的多模式 RM 很少,并且专有模型的实现细节通常不清楚。我们通过 InternLM-XComposer2 弥补了这一差距 ...
0 0 0 2025/09/11 arXiv:2501.12368v2 liht

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)