一译 —— 文档和论文翻译、对照阅读、讨论和社区

Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints

文本驱动的3d室内场景生成可用于游戏、电影行业和 ar/vr应用。然而，现有方法无法忠实地捕捉房间布局，也不允许灵活编辑房间中的各个对象。为了解决这些问题 ...

0 0 0 2025/09/08 arXiv:2310.03602v4 liuyibo

GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers

视觉 Transformer （VIT）在计算机视觉中至关重要，但在计算上也是强度的。模型量化，尤其是4位诸如4位之类的低位宽度，旨在减轻这种困难，但现有的培训后量化（PTQ）和量化感知训练（QAT）方法具有显着的限制。 PTQ通常会产生大量准确性下降，而QAT的精度很高，但遭受了高度的计算成本，对下游任务的概括有限，训练不稳定性以及缺乏开源代码库 ...

0 0 0 2025/09/08 arXiv:2506.11784v1 zhangxinyu

Fast Video Generation with Sliding Tile Attention

具有3D全注意力的扩散 Transformer （DIT）（DITS）最先进的视频生成，但遭受了高度的计算成本 - 当仅产生5秒的720p视频时，单独的注意力只需要945秒的总推断时间中的800。本文介绍了滑动瓷砖的注意（STA），以应对这一挑战。 STA利用了这样的观察结果，即预处理的视频扩散模型中的注意力分数主要集中在局部3D窗口中 ...

0 0 0 2025/09/08 arXiv:2502.04507v3 jhao90

RoomPainter: View-Integrated Diffusion for Consistent Indoor Scene Texturing

由于其在虚拟现实，数字媒体和创意艺术中的重要潜在应用，室内场景纹理的综合综合引起了极大的兴趣。现有的基于扩散模型的研究要么依赖于每次视图授课技术，这些技术受到严重的跨视线不一致和显着接缝的困扰，要么采用涉及大量计算额外开销的基于优化的方法。在这项工作中，我们介绍了室内，该框架无缝地集成了效率和一致性，以实现室内场景的高保真质地 ...

0 0 0 2025/09/08 arXiv:2412.16778v2 liuyibo

LEGION: Learning to Ground and Explain for Synthetic Image Detection

生成技术的快速发展已成为双刃剑。他们提供了增强便利性的强大工具，但也引起了重大的社会关注。作为捍卫者，当前的合成图像检测方法通常缺乏人工级的文本解释性，并且过于专注于图像操纵检测，并且当前的数据集通常会遭受过时的发电机和缺乏细粒度的注释 ...

0 0 0 2025/09/08 arXiv:2503.15264v1 sunshine3399

Progressive Autoregressive Video Diffusion Models

当前的边境视频扩散模型在生成高质量视频方面表现出了很棒的结果。但是，由于训练期间的计算限制，它们只能生成简短的视频剪辑，通常约为10秒或240帧。现有方法通过直接将上一个剪辑的结束放置在注意力窗口的前部，以作为调节，从而实现自动回归的长视频生成，从而导致场景发生变化，不自然的运动和误差积累 ...

0 0 0 2025/09/08 arXiv:2410.08151v2 kevinson

Improved Detection of Latent Diffusion-Generated Images through Aligned Datasets

随着潜在扩散模型（LDMS）使图像产生功能民主化，越来越需要检测假图像。一个好的检测器应专注于生成模型指纹，同时忽略诸如语义内容，分辨率，文件格式等的图像属性。假图像探测器通常以数据驱动的方式构建，其中训练模型可以与假图像分开 ...

0 0 0 2025/09/08 arXiv:2410.11835v3 Hollowyuk

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

我们介绍了Mardini，这是一个新的视频扩散模型家族，将蒙版自动回归（MAR）的优势集成到统一扩散模型（DM）框架中。在这里，MAR处理时间计划，而DM专注于非对称网络设计中的空间生成：i）一个基于MAR的计划模型，该模型包含大多数参数，使用低分辨率输入为每个蒙版框架生成计划信号； ii）轻量级生成模型使用这些信号通过扩散去噪声来产生高分辨率帧。 Mardini's Mar启用视频生成在任何框架 ...

0 0 0 2025/09/08 arXiv:2410.20280v1 kevinson

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）