在近几年中,流动匹配(FM)方法的发展繁荣,用于生成建模。社区追求的一个有趣的财产是能够通过直接轨迹学习流动的能力,从而实现最佳运输(OT)位移。直度对于学习流的路径的快速整合(推断)至关重要 ...
基于学习的方法已经实现了四足体运动的强劲性能。但是,一些挑战阻止了四足动物学习需要与环境和人类相互作用的有用室内技能:缺乏进行操纵的最终效果,仅使用模拟数据使用模拟数据有限的语义理解,以及在室内环境中的较低的遍布性和可及性。我们提出了一个在室内环境中进行四足动物移动操作的系统 ...
将约束编码到神经网络中是有吸引力的。本文研究了如何介绍神经网络流行的积极线性满足。我们根据经典的sndhorn算法的扩展,提出了第一个可区分的可满足性层,用于共同编码多个边缘分布 ...
确定性混乱的标志是它创建了信息 - Kolmogorov-Sinai公制熵给出的速度。自半个世纪前引入以来,该度量熵已被用作统一数量来测量系统的内在不可预测性。在这里,我们表明它自然地分解为两个结构有意义的组成部分:创建信息的一部分---短暂的信息----被遗忘和一部分 - - 被绑定的信息 - - 被记住 ...
最近,类似于MLP的视觉模型已在主流视觉识别任务上实现了有希望的表演。与视觉 Transformer 和CNN相反,类似于MLP的模型的成功表明, Token 和频道之间的简单信息融合操作可以为深度识别模型带来良好的表示能力。但是,现有的类似于MLP的模型通过静态融合操作融合 Token ,缺乏对 Token 内容的适应性 ...
视觉语言模型(VLM)的出现在理解多模式信息方面带来了前所未有的进步。 VLMS中文本语义和视觉语义的结合非常复杂且多样,这使得这些模型的安全对齐变得具有挑战性。此外,由于对VLM的安全对准有限的研究有限,因此缺乏大规模的高质量数据集 ...
域适应性(DA)旨在将知识从富含标签但异质域的知识转移到标签 - 标准域,从而减轻了标签工作并引起了相当大的关注。与以前关注学习域不变特征表示的方法不同,一些最新方法呈现通用的半监督学习(SSL)技术,并将其直接应用于DA任务,甚至可以实现竞争性能。最受欢迎的SSL技术之一是伪标记,该标签通过通过标记数据训练的分类器为每个未标记的数据分配伪标签 ...
在本文中,我们提出了一种新型的跨模式蒸馏方法,称为TinyClip,用于大规模的语言图像预训练的模型。该方法引入了两种核心技术:亲和力模仿和重量继承。亲和力模仿蒸馏过程中模态之间的相互作用,使学生模型能够模仿教师在视觉语言亲和力空间中学习跨模式特征对齐的行为 ...