使用扩散 Transformer (DiT)生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余,输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计,其精度-效率权衡受到块大小的限制 ...

0 0 0 0 2025/10/24 arXiv:2510.18692v1 bnexx

3D高斯裂(3DGS)是3D重建的强大且在计算上有效的表示。尽管具有优势,但3DGS通常会产生浮动伪像,这些伪影是从实际的几何形状脱离的错误结构,并显着降低了视觉保真度。尚未完全探索引起这些伪像的基本机制,特别是在低质量初始化方案中 ...

0 0 0 0 2025/10/24 arXiv:2508.02493v3 zhifeiji

过去几年,语音转换在录音室质量的测试场景下,在语音质量和说话人相似度方面取得了长足的进步。然而,在实际应用中,来自源说话人或目标说话人的测试语音可能会被各种环境噪声破坏,从而严重降低语音质量和说话人相似度。在本文中,我们提出了一种基于编码器-解码器的噪声鲁棒语音转换框架,该框架由说话者编码器、内容编码器、解码器和两个域对抗神经网络组成 ...

0 0 0 0 2025/10/24 arXiv:2201.10693v1 jack_j

自动作文评分 (AES) 在评估语言学习者的写作质量、减少评分工作量和提供实时反馈方面发挥着至关重要的作用。缺乏带注释的论文数据集阻碍了阿拉伯语 AES 系统的发展。本文利用大型语言模型 (LLM) 和 Transformer 模型来生成 AES 的合成阿拉伯语论文 ...

0 0 0 0 2025/10/24 arXiv:2503.17739v2 554

最近基于扩散的方法在基于图像的虚拟试穿方面取得了重大进展,实现了更真实的端到端服装合成。然而,大多数现有方法仍然受到对展览服装和分割掩模的依赖以及处理灵活姿势变化的能力的限制。这些限制降低了它们在现实场景中的实用性,例如,用户无法轻松地将一个人穿的衣服转移到另一个人身上,并且生成的试穿结果通常仅限于与参考图像相同的姿势 ...

0 0 0 0 2025/10/24 arXiv:2508.04559v1 lucian_p

视频扩散模型最近显示出通过以动作为条件的自回归帧预测进行世界建模的前景。然而,由于与处理注意层中的扩展序列相关的高计算成本,他们很难维持长期记忆。为了克服这一限制,我们提出了一种利用状态空间模型(SSM)来扩展时间存储器而不影响计算效率的新颖架构 ...

0 0 0 0 2025/10/24 arXiv:2505.20171v1 plum

虚拟试穿旨在合成穿着目标服装的人的真实图像,但准确建模服装与身体的对应关系仍然是一个持续的挑战,特别是在姿势和外观变化的情况下。在本文中,我们提出了 Voost - 一个统一且可扩展​​的框架,可通过单个扩散 Transformer 联合学习虚拟试穿和试穿。通过对这两个任务进行联合建模,Voost 使每个服装-人对能够监督两个方向,并支持对生成方向和服装类别的灵活调节,从而增强服装-身体关系推理,而无需特定于任务的网络、辅助损失或附加标签 ...

0 0 0 0 2025/10/24 arXiv:2508.04825v1 lucian_p

随着硬件、软件和大语言模型技术的进步,人类和操作系统之间的交互已经从命令行界面发展到迅速兴起的人工智能代理交互。构建一个能够执行用户指令并忠实遵循用户需求的操作系统(OS)代理正在成为现实。在本技术报告中,我们介绍了 ColorAgent,这是一种操作系统代理,旨在与环境进行长期、稳健的交互,同时还支持个性化和主动的用户交互 ...

0 0 0 0 2025/10/24 arXiv:2510.19386v1 jueli

随着生成式人工智能的快速发展及其在图像编辑中的广泛应用,数字内容的真实性和完整性出现了新的风险。现有的多功能水印方法面临篡改定位精度和视觉质量之间的权衡。受先前框架灵活性有限的限制,其局部水印必须在所有图像上保持固定 ...

0 0 0 0 2025/10/24 arXiv:2412.01615v3 sunshine3399

与基于 NeRF 的神经场景表示相比,最近的 3D 高斯泼溅 (3D-GS) 显示出卓越的渲染保真度和效率。在展示实时渲染潜力的同时,3D-GS 在具有复杂细节的大型场景中遇到了渲染瓶颈,因为视锥体中存在过多的高斯图元。这种限制在缩小视图中尤其明显,并且可能导致细节变化的场景中渲染速度不一致 ...

0 0 0 0 2025/10/24 arXiv:2403.17898v2 pjt

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)