变形金刚最近在低级视觉任务中获得了广泛的知名度,包括图像超分辨率(SR)。这些网络利用沿不同维度(空间或渠道)的自我注意力,并实现令人印象深刻的性能。这激发了我们将 Transformer 中的两个维度结合起来,以具有更强大的表示能力 ...
场景图像编辑对于娱乐,摄影和广告设计至关重要。现有方法仅关注2D单独对象或3D全局场景编辑。这导致缺乏一种统一的方法来有效控制和操纵3D级别的场景,并具有不同水平的粒度 ...
我们提供Infinicube,这是一种可扩展的方法,用于生成具有高保真和可控性的无界动态3D驾驶场景。场景生成的先前方法要么遭受有限的量表,要么沿产生的序列缺乏几何和外观一致性。相比之下,我们利用可扩展3D表示和视频模型的最新进步来实现大型动态场景生成,从而可以通过高清地图,车辆边界框和文本说明进行灵活的控制 ...
基金会模型的快速发展受培训,该网络接受了多样化的,广泛的数据集团彻底改变了人工智能,从而在自然语言处理,计算机视觉和科学发现等领域跨越了前所未有的进步。但是,这些模型的大量参数计数通常达到数十亿或万亿,在使其适应特定的下游任务时面临着重大挑战。低级适应性(LORA)已成为缓解这些挑战的一种高度有希望的方法,为使用最小的计算开销提供了一种参数效率的机制来微调基础模型 ...
近年来,联邦学习(FL)受到了很多关注。但是,尽管不需要客户在FL中共享其数据,但全球模型本身可以隐含地记住客户的本地数据。因此,有必要从FL Global模型中有效删除目标客户的数据,以减轻隐私泄漏的风险并实施``被遗忘的权利'' ...
Experts(MOE)模型架构的混合物已成为有效扩展 Transformer 模型的有前途的解决方案,从而提供了稀疏激活,从而降低了计算成本,同时增加了模型容量。但是,随着MOE模型的规模,它们需要在GPU设备上分布,因此由于其大量记忆足迹,它们会面临关键的性能瓶颈。但是,专家并行性在GPU上分配专家,但是面临着关键的挑战,包括不平衡的 Token 路由和专家激活,从而导致通信尾巴潜伏期和处理效 ...
人类智能的特征是我们能够吸收和运用周围世界知识的能力,尤其是在以先验知识为基础的最小例子中迅速获取新概念的能力。很少有射击学习(FSL)旨在通过实现明显的概括和可传递性来模仿这种能力。但是,传统的FSL框架通常依赖于清洁,完整和静态数据的假设,这些假设很少在现实世界环境中满足 ...
我们提出了Scube,这是一种从一组稀疏的姿势图像中重建大规模3D场景(几何,外观和语义)的新方法。我们的方法使用新颖的表示VoxSplat编码重建的场景,该场景是在高分辨率稀疏 - 体voxel支架上支撑的3D高斯人。为了从图像中重建VoxSplat,我们采用了以输入图像为条件的层次体素潜水扩散模型,然后是前馈外观预测模型 ...