对大规模文本语料库进行的下一步预测的语言模型,在生成和歧视性语言任务上都提供了惊人的零击,很少的射击,转移学习和多任务功能。在这一成功的促进下,我们探索了一种矢量定量的图像建模(VIM)方法,该方法涉及预处理 Transformer 以预测栅格图形 Token 自动加压。离散的图像 Token 是根据基于学习的视觉转换器VQGAN(VIT-VQGAN)编码的 ...
我们介绍流k,一种以工作为中心的矩阵乘法并行化(gemm)以及稠密线性代数中的相关计算。虽然当代的分解主要是基于图块的,但我们的方法通过在物理处理元素之间划分均匀份额的聚合内循环迭代来进行操作。这提供了对计算资源的近乎完美的利用,无论任何给定问题的输出平铺在底层处理元素上量化的效率如何... ...
命名实体识别(NER)是自然语言处理(NLP)中的基本问题。但是,提取更长的实体跨度的任务(例如 ...
顺序推荐(SR)任务旨在通过学习其行为顺序并捕获用户过去交互与不断变化的偏好之间的联系来预测用户的下一个交互。常规的SR模型通常仅着重于捕获培训数据中的顺序模式,忽略了外部来源项目标题中嵌入的更广泛的上下文和语义信息。这限制了他们的预测能力和适应性 ...
通过众多图像数据进行预训练已成为鲁棒2D表示的事实上。相比之下,由于昂贵的数据获取和注释,大规模3D数据集的匮乏严重阻碍了对高质量3D功能的学习。在本文中,我们提出了一种替代方案,可以通过图像对点蒙版的自动编码器从2D预训练的模型获得出色的3D表示,称为I2P-MAE ...
深度卷积神经网络(CNN)用于图像通过自动挖掘精确的结构信息进行图像。但是,大多数现有的CNN依赖于扩大设计网络的深度以获得更好的降级性能,这可能会导致训练难度。在本文中,我们通过三个阶段提出了带有小波变换(MWDCNN)的多阶段图像Denoise CNN ...
图像恢复是一个具有挑战性的病态问题,也是一个长期存在的问题。在过去的几年里,卷积神经网络(,CNN),几乎统治了计算机视觉,并在包括图像恢复在内的不同级别的视觉任务中取得了相当大的成功。然而,swin变形金刚,甚至超越了基于,CNN的方法,成为高级视觉任务上的最先进方法... ...
模仿学习已被证明在教授机器人灵巧的操纵技能方面非常有效。但是,它通常依赖大量的人类演示数据,这限制了其在动态,现实世界中的可伸缩性和适用性。在这种情况下,一个关键的挑战是对象概括,其中一个机器人训练了用一个对象执行任务的机器人,例如“苹果”,努力将其技能转移到语义上相似但视觉上不同的对象上,例如“桃子” ...