近年来,大型数据集阻碍了有效的模型训练,同时还包含冗余概念。数据集蒸馏的目的是合成紧凑的数据集,保留大规模训练集的知识,同时大幅减少存储和计算。扩散模型的最新进展通过利用预先训练的生成先验实现了免训练蒸馏;然而,现有的指导战略仍然有限。当前基于分数的方法要么执行无引导的去噪,要么依赖于对实例原型质心(IPC 质心)的简单的基于模式的指导,这通常是初级的且次优的。我们提出了Manifold-Guided Distillation (ManifoldGD),这是一种基于扩散的免训练框架,在每个去噪时间步长中集成了多种一致的指导。我们的方法采用通过 VAE 潜在特征的分层、分裂聚类计算的 IPC,产生 IPC 的多尺度核心集,该 IPC 可以捕获粗略的语义模式和精细的类内变异性。使用提取的 IPC 质心的局部邻域,我们为每个扩散去噪时间步创建潜在流形。在每个去噪步骤中,我们将模式对齐向量投影到估计的潜在流形的局部切线空间上,从而限制生成轨迹保持流形忠实,同时保持语义一致性。该公式提高了代表性、多样性和图像保真度,无需任何模型重新训练。实证结果表明,在 FID、真实和合成数据集嵌入之间的 l2 距离以及分类精度方面,与现有的免训练和基于训练的基线相比,ManifoldGD 取得了一致的成果,将 ManifoldGD 确立为第一个几何感知的免训练数据蒸馏框架 ...
数据集蒸馏的目的是从大型数据集中合成紧凑但信息丰富的数据集。该领域的一个重大挑战是在单个精炼数据集中实现多样性、泛化性和代表性的三重效果。尽管最近的生成数据集蒸馏方法采用强大的扩散模型作为其基础模型,但忽略了扩散模型先验的固有代表性。因此,这些方法通常需要整合外部约束以提高数据质量。为了解决这个问题,我们提出了扩散先验(DAP),它通过使用 Mercer 内核量化特征空间中合成数据和真实数据之间的相似性来形式化代表性。然后,我们引入此先验作为引导反向扩散过程的指导,从而在无需任何再训练的情况下增强蒸馏样品的代表性。对大规模数据集(例如 ImageNet-1K 及其子集)的大量实验表明,DAP 在生成高保真数据集方面优于最先进的方法,同时实现了卓越的跨架构泛化。我们的工作不仅在扩散先验和数据集蒸馏的目标之间建立了理论联系,而且还提供了一个实用的、免训练的框架来提高蒸馏数据集的质量 ...
自然语言处理 (NLP) 通过分析社交媒体或新闻媒体的文本,展示了支持财务决策的巨大潜力。在这项工作中,我们构建了一个平台来系统地研究 NLP 辅助的股票自动交易算法。与之前的工作相比,我们的平台具有三个特点:(1)我们提供每只特定股票的财经新闻。 (2)我们为每只股票提供各种股票因子。 (3) 我们从更多与财务相关的指标来评估绩效。这样的设计使我们能够在更现实的环境中开发和评估 NLP 辅助的股票自动交易算法。除了设计评估平台和数据集集合之外,我们还提出了一种从各种输入信息中自动学习良好特征表示的系统,从而做出了技术贡献。我们算法的关键是一种称为语义角色标签池(SRLP)的方法,它利用语义角色标签(SRL)来创建每个新闻段落的紧凑表示。在SRLP的基础上,我们进一步结合其他股票因素来做出最终的预测。此外,我们提出了一种基于 SRLP 的自监督学习策略,以增强系统的分布外泛化性能。通过我们的实验研究,我们表明,所提出的方法取得了更好的性能,并且优于所有基线的年化收益率以及沪深300指数和XIN9指数在实际交易中的最大回撤。我们的 Astock 数据集和代码可从此 https URL 获取 ...
估计已知物体的 6D 位姿对于机器人与现实世界的交互非常重要。由于对象的多样性以及对象之间的杂乱和遮挡导致的场景的复杂性,该问题具有挑战性。在这项工作中,我们介绍了 PoseCNN,一种用于 6D 物体姿态估计的新卷积神经网络。 PoseCNN 通过定位图像中对象的中心并预测其与相机的距离来估计对象的 3D 平移。通过回归到四元数表示来估计对象的 3D 旋转。我们还引入了一种新颖的损失函数,使 PoseCNN 能够处理对称对象。此外,我们还贡献了一个用于 6D 物体姿态估计的大规模视频数据集,名为 YCB-Video 数据集。我们的数据集提供了 YCB 数据集中 92 个视频(133,827 帧)中观察到的 21 个物体的准确 6D 姿势。我们对 YCB-Video 数据集和 OcclusionLINEMOD 数据集进行了广泛的实验,以表明 PoseCNN 对遮挡具有高度鲁棒性,可以处理对称对象,并仅使用彩色图像作为输入来提供准确的姿势估计。当使用深度数据进一步细化姿势时,我们的方法在具有挑战性的 OcclusionLINEMOD 数据集上取得了最先进的结果。我们的代码和数据集可在此 https URL 获取 ...
我们展示了 Habitat-Matterport 3D (HM3D) 数据集。 HM3D 是一个大型数据集,包含来自不同现实世界位置的 1,000 个建筑规模的 3D 重建。数据集中的每个场景都由内部纹理 3D 网格重建组成,例如多层住宅、商店和其他私人室内空间。 HM3D 在物理规模、重建的完整性和视觉保真度方面超越了可用于学术研究的现有数据集。 HM3D 包含 112.5k m^2 的可导航空间,比 MP3D 和 Gibson 等其他建筑规模数据集大 1.4 - 3.7 倍。与现有的真实感 3D 数据集(例如 Replica、MP3D、Gibson 和 ScanNet)相比,从 HM3D 渲染的图像的视觉保真度提高了 20 - 85%。与使用真实相机捕获的对应图像相比,HM3D 网格由于不完整的表面重建而减少了 34 - 91% 的伪影。 HM3D 规模、保真度和多样性的增加直接影响使用它训练的具体 AI 代理的性能。事实上,我们发现 HM3D 在以下意义上是“帕累托最优”——经过训练在 HM3D 上执行 PointGoal 导航的智能体实现了最高性能,无论它们是在 HM3D、Gibson 还是 MP3D 上进行评估。对于其他数据集的训练,无法做出类似的声明。经过 HM3D 训练的 PointNav 代理在 Gibson 测试数据集上实现了 100% 的性能,这表明可能是时候淘汰该情节数据集了 ...
在物理世界中开发用于主动代理和感觉运动控制的视觉感知模型非常麻烦,因为现有算法太慢而无法有效地实时学习,而且机器人脆弱且成本高昂。这引发了模拟学习,从而引发了结果是否可以转移到现实世界的问题。在本文中,我们关注为主动代理开发现实世界感知的问题,为此提出了吉布森虚拟环境,并展示了其中学习的感知任务示例。 Gibson 基于虚拟化真实空间,而不是使用人工设计的空间,目前包括 572 栋完整建筑的 1400 多个楼层空间。 Gibson的主要特点是:I.来自现实世界并反映其语义复杂性;II.来自现实世界并反映其语义复杂性。具有内部综合机制“Goggles”,能够在现实世界中部署经过训练的模型,而无需进一步的领域适应,III。代理的体现并使它们受到物理和空间的约束 ...
近几十年来,时间序列预测引起了人们的广泛关注。先前的研究表明,通道独立(CI)策略通过单独处理不同的通道来提高预测性能,但它会导致对未见过的实例的泛化能力较差,并忽略通道之间潜在必要的交互。相反,渠道相关(CD)策略将所有渠道与甚至不相关和不加区别的信息混合在一起,但这会导致过度平滑问题并限制预测准确性。缺乏有效平衡各个渠道处理以提高预测性能而不忽视渠道之间基本相互作用的渠道策略。受我们对时间序列模型针对通道混合的性能提升与一对通道的内在相似性之间的相关性的观察的启发,我们开发了一种新颖且适应性强的通道聚类模块(CCM)。 CCM 对具有内在相似性的渠道进行动态分组,并利用集群信息而不是单个渠道标识,从而结合了 CD 和 CI 世界的优点。对真实世界数据集的大量实验表明,CCM 可以 (1) 将 CI 和 CD 模型的长期和短期预测性能平均分别提高 2.4% 和 7.2%; (2)利用主流时间序列预测模型实现零样本预测; (3)揭示通道之间内在的时间序列模式并提高复杂时间序列模型的可解释性 ...
多模态顺序推荐(MSR)利用不同的项目模态来提高推荐准确性,同时实现有效和自适应的融合仍然具有挑战性。现有的 MSR 模型经常忽视仅通过模态组合出现的协同信息。此外,他们通常假设用户之间不同方式的交互具有固定的重要性。为了解决这些限制,我们通过 \textbf{I}nformation \textbf{S}ynergy \textbf{M}odule (PRISM) 提出 \textbf{P}个性化 \textbf{R}推荐,这是一种用于顺序推荐 (SR) 的即插即用框架。 PRISM 通过交互专家层将多模态信息显式分解为独特的、冗余的和协同的组件,并通过用户偏好引导的自适应融合层动态地对它们进行加权。这种信息论设计能够实现多模态信号的细粒度解缠和个性化融合。对四个数据集和三个 SR 主干网的广泛实验证明了其有效性和多功能性。该代码可从此 https URL 获取 ...
任务驱动的对象检测旨在检测适合在图像中承担任务的对象实例。它的挑战在于可用于任务的对象类别过于多样化,以至于无法局限于传统对象检测的一组封闭的对象词汇。简单地将常见对象的类别和视觉特征映射到任务并不能解决这一挑战。在本文中,我们建议探索基本的可供性而不是对象类别,即使不同对象能够完成相同任务的共同属性。此外,我们提出了一种新颖的多级思维链提示(MLCoT),用于从大型语言模型中提取可供性知识,其中包含从任务到对象示例到具有基本原理的基本视觉属性的多级推理步骤。此外,为了充分利用知识来促进对象识别和定位,我们提出了一种知识条件检测框架,即 CoTDet。它根据知识调节检测器以生成对象查询和回归框。实验结果表明,我们的 CoTDet 始终显着优于最先进的方法(+15.6 框 AP 和+14.8 掩模 AP),并且可以生成检测对象以承担任务的理由 ...
每个代理交互都会生成一个下一个状态信号,即每个操作之后的用户回复、工具输出、终端或 GUI 状态更改,但现有的代理强化学习系统无法将其恢复为实时在线学习源。我们提出了 OpenClaw-RL,这是一个基于简单观察的框架:下一状态信号是通用的,政策可以同时从所有这些信号中学习。个人对话、终端执行、GUI 交互、SWE 任务和工具调用跟踪不是单独的训练问题。它们都是可用于在同一循环中训练相同策略的交互。下一状态信号对两种形式的信息进行编码:评估信号,指示操作的执行情况,并通过 PRM 判断提取为标量奖励;指示信号,指示行动应该如何不同,并通过事后引导的政策蒸馏 (OPD) 来恢复。我们从下一个状态中提取文本提示,构建增强的教师上下文,并提供比任何标量奖励更丰富的 Token 级定向优势监督。由于采用异步设计,模型服务实时请求,PRM 判断正在进行的交互,训练器同时更新策略,它们之间的协调开销为零。应用于个人代理时,OpenClaw-RL 使代理能够通过使用、从用户重新查询、更正和明确反馈中恢复对话信号来进行改进。应用于一般代理时,相同的基础设施支持跨终端、GUI、SWE 和工具调用设置的可扩展 RL,我们还展示了流程奖励的实用性。代码:这个https URL ...