bnexx的文档

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

使用扩散 Transformer （DiT）生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余，输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计，其精度-效率权衡受到块大小的限制 ...

0 0 0 0 2025/10/24 arXiv:2510.18692v1 bnexx

VideoTetris: Towards Compositional Text-to-Video Generation

扩散模型在文本到视频（T2V）生成方面取得了巨大成功。然而，现有方法在处理涉及多个对象或对象数量动态变化的复杂（长）视频生成场景时可能面临挑战。为了解决这些限制，我们提出了 VideoTetris，这是一种能够生成组合 T2V 的新颖框架 ...

0 0 0 0 2025/10/15 arXiv:2406.04277v2 bnexx

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

唇部同步（称为与新输入音频的现有视频中对齐唇部动作的任务）通常被构成更简单的音频驱动面部动画变体。但是，除了遇到谈话时代的常规问题（例如 ...

0 0 0 0 2025/05/06 arXiv:2505.00497v1 bnexx

SMIRK: 3D Facial Expressions through Analysis-by-Neural-Synthesis

虽然现有的根据野外图像进行3D面部整形的方法能够很好地恢复面部形状，但它们通常会错过微妙、极端、不及时或很少观察到的表情。我们使用SMIRK（基于图像的运动学重建空间构建）模）改进了这些方法，它忠实地从图像中重建了丰富的3D表现力。我们确定了现有方法的两个关键局限性：自监督训练公式的缺陷以及训练图像丰富表达多样性。 .. ...

0 0 0 0 2025/04/13 arXiv:2404.04104v2 bnexx

Learning Texture Transformer Network for Image Super-Resolution

我们研究了图像超分辨率（SR），该图像旨在从低分辨率（LR）图像中恢复逼真的纹理。最新的进展是通过将高分辨率图像作为参考（参考）（参考）取得的，因此可以将相关纹理传输到LR图像。但是，现有的SR方法忽略了使用注意机制从参考图像转移高分辨率（HR）纹理的方法，这限制了这些方法在有挑战性的情况下 ...

0 0 0 0 2025/04/08 arXiv:2006.04139v2 bnexx

Deciphering Oracle Bone Language with Diffusion Models

许多甲骨文 (OBS) 起源于大约 3000 年前的中国商代，是语言史史上的基石，早于已建立的书写系统。尽管发现了数千个铭文，但大量 OBS 未破译，给了这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为OBS解密提供了一个新的前沿，挑战了严重依赖大规模文本语言资料库的传统NLP方法，这是历史语言无法提供的奢侈。 ...

0 0 0 0 2025/03/21 arXiv:2406.00684v2 bnexx