神经网络剪枝技术可以将训练网络的参数数量减少 90% 以上,从而降低存储需求并提高推理的计算性能,而不会影响准确性。然而,当代的经验是,剪枝产生的稀疏架构很难从一开始就进行训练,这同样会提高训练性能。我们发现标准修剪技术自然地揭示了子网络,其初始化使它们能够有效地进行训练 ...
我们推出了 Unity Perception 包,旨在通过提供易于使用且高度可定制的工具集来简化和加速为计算机视觉任务生成合成数据集的过程。该开源包扩展了 Unity 编辑器和引擎组件,可为几种常见的计算机视觉任务生成完美注释的示例。此外,它还提供了一个可扩展的随机化框架,使用户可以快速构建和配置随机模拟参数,以便在生成的数据集中引入变化 ...
当前缩放语言模型的趋势涉及增加参数数量和训练数据集大小。推断这一趋势表明,数据集的大小可能很快就会受到互联网上可用文本数据量的限制。受此限制的启发,我们研究有了数据设定情况下的扩展语言模型... ...
图神经网络(GNN)因其出色的处理图结构金融数据和通过聚合邻居信息来建模多层连接的能力而被广泛应用于金融欺诈检测。然而,这些基于 GNN 的方法侧重于提取邻居级别的信息,而忽略了全局视角。本文提出了全局置信度(GCD)的概念和计算公式,从而设计了基于 GCD 的 GNN(GCD-GNN),可以解决欺诈活动中伪装的挑战,从而捕获更多的全局信息 ...
图神经网络(GNN)研究强调了节点分类中高同质性(即同一类节点连接的趋势)与强预测性能之间的关系 ...
基于 Transformer 的语言模型(LM)的成功源于它们的注意力机制。虽然这种机制在可解释性研究中得到了广泛的研究,特别是通过 LM 的前向传递过程中获得的注意力值,但注意力的后向传递在很大程度上被忽视了。在这项工作中,我们研究了注意力向后传递的数学,揭示了它隐式计算了我们称为“反向注意力”的注意力矩阵 ...
在本文中,我们确定了关键去噪模型的训练损失中奇点的来源,该来源导致去噪器的预测向源或目标分布的平均值崩溃。这种简并性会产生错误的吸引盆,扭曲去噪轨迹,并最终增加对这些模型进行采样所需的步骤数。我们通过利用某些去噪扩散和分数匹配模型提供的基于确定性 ODE 的采样器来规避此伪影,这些模型在源分布和目标分布之间建立了明确定义的变量变化 ...
扩散模型在许多应用中实现了最先进的生成质量,但它们捕获重尾分布中罕见或极端事件的能力仍不清楚。在这项工作中,我们表明具有标准高斯先验的传统扩散和流匹配模型无法捕获重尾行为。我们通过使用多元 Student-t 分布重新利用扩散框架进行重尾估计来解决这个问题 ...