类人机器人的长视野、高动态运动跟踪仍然很脆弱,因为绝对关节命令无法补偿模型与设备的不匹配,从而导致误差累积。我们提出了 RobotDancing,这是一个简单的、可扩展的框架,可以预测残余关节目标以明确纠正动态差异。该管道是端到端的——训练、模拟到模拟验证和零样本模拟到真实——并使用具有统一观察、奖励和超参数配置的单阶段强化学习 (RL) 设置。我们主要使用重定向的 LAFAN1 舞蹈序列对 Unitree G1 进行评估,并在 H1/H1-2 上验证传输。 RobotDancing 可以跟踪多分钟、高能量的行为(跳跃、旋转、侧手翻),并将零射击部署到具有高运动跟踪质量的硬件 ...
专家混合 (MoE) 架构是一种用于扩展语言模型的强大技术,但它经常遭受专家同质化的困扰,即专家学习冗余功能,从而限制了 MoE 的全部潜力。为了解决这个问题,我们引入了专家分歧学习,这是一种新颖的预训练策略,明确鼓励专家之间的功能专业化。我们的方法结合了标签驱动的辅助损失,利用预训练语料库中固有的域标签来最大化不同数据域的专家路由分布之间的 Jensen-Shannon 分歧。这种优化目标指导模型为不同的域开发不同的路由策略,为同一域开发更接近的路由策略,从而导致出现紧急且有组织的专家专业化。我们通过从头开始预训练多达 150 亿个参数的 MoE 模型来验证我们的方法。实验结果表明,使用专家分歧学习训练的模型不仅实现了较低的语言建模损失,而且在各种下游基准测试中表现出显着的性能改进。进一步的分析证实,我们的方法有效地减轻了专家同质化并带来了更大的功能专业化,所有这些在训练期间的计算开销都可以忽略不计 ...
我们提出了流程感知策略优化(PAPO),一种通过解耦优势标准化将流程级评估集成到组相对策略优化(GRPO)中的方法,以解决现有奖励设计的两个局限性。结果奖励模型(ORM)仅评估最终答案的正确性,无论推理质量如何,都一视同仁地对待所有正确的答案,并随着群体变得一致正确而逐渐失去优势信号。过程奖励模型 (PRM) 提供更丰富的监督,但直接使用 PRM 分数会导致奖励黑客攻击,其中模型利用冗长的内容来夸大分数,同时准确性却下降。 PAPO 通过组合结果组件 Aout 和过程组件 Aproc 的优势来解决这两个问题,其中,结果组件 Aout 源自 ORM,并对所有响应进行标准化,而过程组件 Aproc 则源自基于评分标准的 PRM,并专门在正确响应中进行标准化。这种解耦设计确保 Aout 锚定训练的正确性,而 Aproc 区分推理质量而不扭曲结果信号。跨多个模型规模和六个基准的实验表明,PAPO 的表现始终优于 ORM,在 OlympiadBench 上达到 51.3% vs. 46.3%,同时随着 ORM 的稳定和下降而继续改进 ...
大型语言模型 (LLM) 中的上下文窗口扩展到数百万个 Token ,引入了严重的内存和计算瓶颈,特别是在管理不断增长的键值 (KV) 缓存方面。虽然 Compute Express Link (CXL) 支持非逐出框架,将完整的 KV 缓存卸载到可扩展的外部内存,但随着上下文长度的增加,这些框架在将非驻留 KV Token 调用到有限的 GPU 内存时仍然会遭受昂贵的数据传输。这项工作提出了用于 1M-Token LLM Inference 的可扩展近内存处理 (PNM),这是一种支持 CXL 的 KV 缓存管理系统,可协调超出 GPU 限制的内存和计算。我们的设计将 Token 页面选择卸载到 CXL 内存中的 PNM 加速器,从而消除了成本高昂的召回并支持更大的 GPU 批量大小。我们进一步引入混合并行化策略和稳定 Token 选择机制来提高计算效率和可扩展性。我们的解决方案在最先进的 CXL-PNM 系统之上实施,为具有多达 405B 参数和 1M Token 上下文的 LLM 提供一致的性能增益。我们的仅 PNM 卸载方案 (PNM-KV) 和具有稳定 Token 执行的 GPU-PNM 混合方案 (PnG-KV) 与基线相比,吞吐量提高了 21.9 倍,每个 Token 的能耗降低了 60 倍,总成本效率提高了 7.3 倍,这表明支持 CXL 的多 PNM 架构可以作为未来长上下文 LLM 推理的可扩展骨干 ...
4D 雷达摄像头传感配置在自动驾驶中变得越来越重要。然而,融合 4D 雷达和相机数据的现有 3D 物体检测方法面临着一些挑战。首先,他们的绝对深度估计模块不够稳健和准确,导致 3D 定位不准确。其次,当自我车辆的姿态丢失或不准确时,其时间融合模块的性能将急剧下降甚至失败。第三,对于一些小物体,稀疏的雷达点云可能完全无法从其表面反射。在这种情况下,检测必须仅依赖于视觉单峰先验。为了解决这些限制,我们提出了 R4Det,它通过全景深度融合模块增强深度估计质量,从而实现绝对深度和相对深度之间的相互增强。对于时间融合,我们设计了一个不依赖于自我车辆姿态的可变形门控时间融合模块。此外,我们还构建了一个实例引导动态细化模块,可以从 2D 实例指导中提取语义原型。实验表明,R4Det 在 TJ4DRadSet 和 VoD 数据集上实现了最先进的 3D 对象检测结果 ...
Masked Graph Auto-Encoder 是一种强大的图自监督训练范式,最近在图表示学习方面表现出了卓越的性能。现有的工作通常依赖于节点上下文信息来恢复被屏蔽的信息。然而,它们无法很好地推广到连接节点可能不相似的异亲图,因为它们只专注于捕获邻域信息而忽略不同节点之间的差异信息,导致无法区分节点表示。在本文中,为了解决这个问题,我们提出了一种差异感知图掩模自动编码器(DGMAE)。它通过在掩蔽过程中重建相邻节点的差异信息来获得更具可区分性的节点表示。我们对 17 个广泛使用的基准数据集进行了广泛的实验。结果表明,我们的 DGMAE 可以有效地保留低维空间中节点的差异。此外,DGMAE 在任务节点分类、节点聚类和图分类这三个图分析上显着优于最先进的图自监督学习方法,展示了其显着的优越性。 DGMAE 的代码可从此 https URL 获取 ...
图自监督学习寻求在不依赖标记数据的情况下学习有效的图表示。在各种方法中,图自动编码器(GAE)因其效率和可扩展性而受到广泛关注。通常,GAE 将不完整的图作为输入并预测缺失的元素,例如屏蔽节点或边。虽然有效,但我们的实验研究表明,传统的节点或边缘掩蔽范例主要捕获图中的低频信号,而无法学习表达的结构信息。为了解决这些问题,我们提出了图位置自动编码器(GraphPAE),它采用双路径架构来重建节点特征和位置。具体来说,特征路径使用位置编码来增强消息传递处理,提高 GAE 预测损坏信息的能力。另一方面,位置路径利用节点表示来细化位置并近似特征向量,从而使编码器能够学习不同的频率信息。我们进行了大量的实验来验证 GraphPAE 的有效性,包括异性节点分类、图属性预测和迁移学习。结果表明,GraphPAE 实现了最先进的性能,并且始终大幅优于基线 ...
准确的不确定性估计对于在医疗诊断等风险敏感应用中部署神经网络至关重要。蒙特卡罗 Dropout 是一种广泛使用的技术,通过在推理过程中执行带有 Dropout 的随机前向传递来近似预测不确定性。然而,在所有层和输入上使用静态丢失率可能会导致次优的不确定性估计,因为它无法适应各个输入和网络层的不同特征。现有方法在使用标记数据的训练过程中优化退出率,导致固定的推理时间参数无法适应新的数据分布,从而损害了蒙特卡洛模拟中的不确定性估计。在本文中,我们提出了 Rate-In,一种通过量化每层特征图中由 dropout 引起的信息损失来动态调整推理过程中的 dropout 率的算法。通过将丢失视为受控噪声注入并利用信息论原理,Rate-In 可以调整每层和每个输入实例的丢失率,而无需地面真实标签。通过量化特征图中的功能信息丢失,我们自适应地调整丢失率,以在不同的医学成像任务和架构配置中保持感知质量。我们对合成数据和现实世界医学成像任务的广泛实证研究表明,与固定或启发式退出率相比,Rate-In 改进了校准并提高了不确定性估计,而不会影响预测性能。 Rate-In 提供了一种实用的、无监督的推理时间方法来优化 dropout,从而在关键应用中实现更可靠的预测不确定性估计 ...
UI 自动化对于 UI 测试、错误重现和机器人流程自动化来说是一项有用的技术。使用应用程序记录用户操作有助于快速开发 UI 自动化脚本,但现有的记录技术具有侵入性,依赖操作系统或 GUI 框架可访问性支持,或者假设特定的应用程序实现。截屏视频中的逆向工程用户操作是非侵入性的,但目前缺少一个关键的逆向工程步骤 - 从操作截屏视频中识别人类可理解的结构化用户操作([命令] [小部件] [位置])。为了填补这一空白,我们提出了一种基于深度学习的计算机视觉模型,可以识别 11 个命令和 11 个小部件,并通过联合学习和多任务学习从动作截屏视频中生成位置短语。我们用 7260 个视频动作对标记一个大型数据集,记录用户与 Word、Zoom、Firefox、Photoshop 和 Windows 10 设置的交互。通过大量的实验,我们确认了模型的有效性和通用性,并证明了基于我们的模型构建的截屏到动作脚本工具对于错误再现的有用性 ...
无人机(UAV)图像中的目标检测已成为研究的重点领域,这提出了两个重大挑战:i)在巨大的图像中,目标通常较小且密集; ii)计算资源限制导致大多数模型不适合实时部署。当前的实时物体检测器并未针对无人机图像进行优化,并且为小物体检测而设计的复杂方法通常缺乏实时功能。为了解决这些挑战,我们提出了一种新颖的检测器 RemDet(Reparameter effective multiplication Detector)。我们的贡献如下:1)重新思考现有探测器对小型和密集无人机图像的挑战,并提出信息损失作为高效模型的设计指南。 2)我们引入ChannelC2f模块来增强小物体检测性能,证明高维表示可以有效减轻信息丢失。 3)我们设计的GatedFFN模块不仅提供强大的性能,而且提供低延迟,有效解决实时检测的挑战。我们的研究表明,对于高维表示,GatedFFN 通过使用乘法比前馈网络更具成本效益。 4)我们提出了CED模块,它结合了ViT和CNN下采样的优点,有效减少信息损失。它专门增强了小型和密集对象的上下文信息。在大型无人机数据集、Visdrone 和 UAVDT 上进行的大量实验验证了我们方法的实时效率和卓越性能。在具有挑战性的无人机数据集 VisDrone 上,我们的方法不仅提供了最先进的结果,将检测提高了 3.4% 以上,而且在单个 4090 上实现了 110 FPS ...