当前的AI训练基础架构由单个指令多个数据(SIMD)和收缩阵列体系结构(例如图形处理单元(GPU)和张量处理单元(TPU)主导,它们在加速并行工作负载和密集的矢量矩阵乘法方面表现出色。利用稀疏性和复发性的潜在更有效的神经网络模型不能利用SIMD处理器的全部力量,因此与当今突出的平行体系结构(如变形金刚和CNN)相比,处于严重的劣势,从而阻碍了通往更可持续性AI的道路。为了克服这一限制,我们探索了具 ...
半监督学习(SSL)提供了利用未标记数据以改善模型性能的有效手段。在本文中,我们证明了两种常见SSL方法的简单组合的功能:一致性正则化和伪标记。我们的算法FixMatch首先使用该模型对弱点未标记的图像的预测生成伪标记 ...
科学图是跨学科交流结构化知识的重要工具。但是,它们通常以静态栅格图像的形式出版,失去符号语义并限制重复使用。虽然多模式的大语言模型(MLLM)为桥接视觉和结构提供了途径,但现有方法缺乏语义控制和结构性解释性,尤其是在复杂的图表上 ...
文档解析对于将非结构化和半结构化文档(例如合同、学术论文和发票)转换为结构化的机器可读数据至关重要。文档解析从非结构化输入中提取可靠的结构化数据,为众多应用程序提供了巨大的便利。特别是随着大型语言模型的最新成就,文档解析在知识库构建和训练数据生成中都发挥着不可或缺的作用 ...
由于变形金刚在自然语言处理(NLP)任务中的成功所激发,出现了一些尝试(例如VIT和DEIT)将 Transformer 应用于视觉领域的尝试 ...
传感器融合对于自动驾驶和自动驾驶机器人至关重要,并且由于其互补的感应能力,雷达相机融合系统已获得流行。但是,这两个传感器之间的准确校准对于确保有效融合并改善整体系统性能至关重要。校准涉及内在和外部校准,后者对于实现准确的传感器融合尤其重要 ...
我们介绍立面(快速准确的上下文异常检测):一种基于深度学习的高度学习的异常检测系统,该系统部署在Google(一家大型技术公司)中,是自2018年以来对内幕威胁的最后一次防御措施。立面是一种创新的无用的动作范围内文本系统,可通过考虑各种动作来检测各种动作,包括每个动作涉及每个动作,包括相关的事实,包括用户和其他用户以及其他涉及其他行动。它围绕一个新的多模式模型构建,该模型在公司文档访问,SQL查询 ...
“野外”移动操作旨在在不同的现实环境中部署机器人,这要求机器人具有(1)具有跨对象配置的技能; (2)能够在各种环境中进行长马任务执行; (3)在接地之外执行复杂的操作。带有操纵器的四倍机器人有望扩展工作空间并实现强大的运动,但现有结果并未调查这种功能。本文提出了Wildlma,其中包含三个组件来解决以下问题:(1)改编自有启用VR的全身远程操作和遍历性的知识较低级别控制器; (2)Wildlma ...