许多自然语言处理应用程序使用语言模型来生成文本。考虑到以前的单词和某些上下文(例如图像),这些模型通常经过训练,以按顺序预测下一个单词。但是,在测试时间,该模型有望从头开始生成整个序列 ...
三维(3D)密集字幕是一项新兴的视觉桥接任务,旨在为3D场景生成多个详细和准确的描述。与2D视觉字幕相比,由于其对现实世界的更紧密表示以及数据收集和3D点云源的处理的复杂性,它具有巨大的潜力和挑战。尽管现有方法的流行和成功,但缺乏全面的调查总结了该领域的进步,这阻碍了其进步 ...
多模式3D场景的理解因其在许多领域的广泛应用,例如自动驾驶和人力计算机互动而引起了人们的关注。与传统的单模式3D理解相比,引入额外的模式不仅提高了场景解释的丰富性和精度,而且还确保了更强和弹性的理解。这在多种多样的充满挑战的环境中尤为重要,在这种环境中,仅依靠3D数据可能不足 ...
生成对抗网络(GAN)是广泛的机器学习框架之一,用于广泛的应用程序,例如生成高质量的图像,视频和音频内容。但是,对于大型神经网络而言,培训gan可能在计算上变得昂贵。在这项工作中,我们提出了一种用于改进GAN的杂种量子古典体系结构(称为QC-GAN) ...
我们提出了rife,一种用于视频帧插值( vfi)的实时中间流估计算法。大多数现有的基于流的方法首先估计双向光流,然后缩放和反转它们以近似中间流,从而导致运动边界上的伪影。,从而导致运动边界上的伪影 ...
我们提出体素 Transformer (fotr),这是一种新型且有效的基于体素的 Transformer 主链,用于从点云中检测3D对象。基于体素的3D检测器中的常规3D卷积骨架无法有效地捕获大型上下文信息,这对于对象识别和定位至关重要,这是由于有限的接收场。在本文中,我们通过引入基于 Transformer 的体系结构来解决问题,该体系结构可以通过自我注意力使体素之间的长期关系 ...
对超长的用户行为序列进行建模对于捕获工业推荐系统中的长期和短期偏好至关重要。现有的解决方案通常依赖于两阶段检索或间接建模范式,从而使上游下游不一致和计算效率低下。在本文中,我们提出了更长的时间,是GPU有效推荐人的长期优化 Transformer ...
运动预测对于自主驾驶至关重要,因为它可以根据历史输入来准确对未来车辆轨迹进行准确的预测。本文介绍了基于选择性状态空间模型(SSM)的新型有效轨迹预测框架轨迹Mamba。传统的基于注意力的模型面临着计算成本的挑战,这些模型随着目标数量的数量而二次增长,从而阻碍了它们在高度动态的环境中的应用 ...