Transformer 模型已在广泛的应用中表现出非凡的性能。尽管构成了 Transformer 模型的基础,但点产生的关注并不能很好地扩展到长篇小说数据,因为其时间要求随上下文长度而倍增。在这项工作中,我们提出了雷达,这是一种无训练的方法,通过动态搜索最重要的上下文 Token 来加速推理 ...
从见证的组成中学习原始的(即属性和对象)概念是组成零摄入学习(CZSL)的主要挑战 ...
细分任何2(SAM2)启用使用分割的鲁棒单对象跟踪。为了将其扩展到多对象跟踪(MOT),我们提出了SAM2MOT,并通过分割范式引入了一种新颖的跟踪。与通过检测或通过查询跟踪跟踪,SAM2MOT直接生成从分割掩码的跟踪框,从而降低了对检测准确性的依赖 ...
动态神经网络是深度学习的新兴研究主题。通过自适应推断,动态模型可以实现出色的准确性和计算效率。但是,设计一个强大的动态检测器是一项挑战,因为没有合适的动态体系结构和退出对象检测标准 ...
在本文中,我们解决了一个基本问题:“我们可以以端到端的方式训练潜在扩散模型以及变异自动编码器(VAE) Token 吗?”传统的深入学习智慧表明,在可能的情况下通常可以端对端训练。但是,对于潜在扩散 Transformer ,可以观察到使用标准扩散损失的端到端训练VAE和扩散模型无效,甚至导致最终性能降解。我们表明,尽管扩散损失是无效的,但可以通过表示形式对准(REPA)损失来解锁端到端训练 - ...
信息性路径计划(IPP)是针对各种现实世界机器人应用(例如环境监视)的重要计划范例。 IPP涉及计划一条可以在遵守计划限制的同时,可以准确地了解兴趣数量的道路。传统的IPP方法通常需要在执行过程中进行较高的计算时间,从而产生增强学习(RL)的IPP方法 ...
在这项工作中,我们研究了素描引导的图像介绍的任务。与经过充分探索的自然语言指导图像介绍(在捕获语义细节方面擅长的图像)不同,相对较少的素描引导的介绍提供了更大的用户控制,以指定对象的形状并构成构图。作为该任务的早期解决方案之一,我们引入了一种新型的部分离散扩散过程(PDDP) ...
现有的三个主导网络家族,即CNN,变形金刚和MLP,主要在融合空间上下文信息的方式上彼此不同,从而使设计在骨干建筑开发的核心中更有效地混合混合机制 ...