大规模文本到图像的扩散模型取得了惊人的进步。然而,现状是单独使用文本输入,这会妨碍可控性。在这项工作中 ...
0 0 0 2025/04/20 arXiv:2301.07093v2 tuoyuxiang
生成丰富且可控的运动是视频合成中的关键挑战。我们提出了 Boximator,一种细粒度运动控制的新方法。 Boximator 引入了两种约束类型:硬盒和软盒 ...
0 0 0 2025/04/20 arXiv:2402.01566v1 samuraichamploo
近年来,可控视频生成受到了广泛关注。然而,仍然存在两个主要局限性:首先,大多数现有工作集中于文本、图像或基于轨迹的控制,导致无法实现视频的细粒度控制。其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3 等简单数据集上进行的 ...
0 0 0 2025/04/20 arXiv:2308.08089v1 samuraichamploo
我们提出了 LayerDiffusion,一种使大规模预训练潜在扩散模型能够生成透明图像的方法。该方法允许生成单个透明图像或多个透明层。该方法学习“潜在透明度”,将 alpha 通道透明度编码到预训练潜在扩散模型的潜在流形中 ...
0 0 0 2025/04/20 arXiv:2402.17113v4 samuraichamploo
低阶自适应( lora)最近在微调基础模型方面引起了人们的广泛兴趣。它通过合并低秩矩阵$ a $ a $ a $ b $来表示权重变化,有效地减少了可训练参数的数量,即... ...
0 0 0 2025/04/20 arXiv:2405.03003v1 liaoxin11
跨模式域内收入学习(DIL)的关键挑战是使学习模型能够在同一任务下具有不同特征分布的新型数据中不忘记旧的数据。但是,现有的表现最佳方法仍然缺乏域内知识提取和域间常见提示策略,仍然会导致高遗忘率。在本文中,我们通过培训有限的参数来指导预先训练的模型来学习新域并避免忘记现有的功能分布,从而提出了一个简单而有效的框架CP-Prompt ...
0 0 0 2025/04/20 arXiv:2407.21043v2 guigui
有效的医学图像分割策略的发展已经从其对卷积神经网络(CNN)的最初依赖性发展为当前对CNN与视觉 Transformer 结合的混合模型的研究。越来越多的重点是创建既高性能又有效率的体系结构,可以部署在资源有限的远程系统上。尽管变形金刚可以捕获输入空间中的全球依赖性,但它们从涉及的相应高计算和存储费用中面临挑战 ...
0 0 0 2025/04/20 arXiv:2406.16993v2 zfk666
3D内容创建的快速发展,包括AI驱动的方法和传统工作流程,正在推动对自动索具解决方案的前所未有的需求,这可以使3D模型的复杂性和多样性的日益增强。我们介绍了Unirig,这是一个新型的统一框架,用于自动骨骼索具,它利用大型自回旋模型的功能和骨点跨注意机制来产生高质量的骨骼和皮肤重量。与以前与复杂拓扑或非标准拓扑作用的方法不同,Unirig得益于一种新的骨架树 Token 化方法,可以准确预测拓扑上 ...
0 0 0 2025/04/20 arXiv:2504.12451v1 parsifalster

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)