由于复杂的表结构和复杂的逻辑推理,现有的表理解方法面临挑战。虽然监督微调 (SFT) 在现有研究中占主导地位,但强化学习 (RL),例如组相对策略优化 (GRPO),已显示出前景,但在表格环境中面临初始策略准确性较低和奖励粗糙的问题。在本文中,我们介绍了Table-R1,一个三阶段的强化学习框架,它通过以下方式增强多模式表格理解:(1)促进初始感知和推理能力的热身,(2)感知对齐GRPO(PA-GRPO),它采用连续的树编辑距离相似性(TEDS)奖励来识别表格结构和内容,以及(3)提示完成GRPO(HC-GRPO),它利用剩余步骤的细粒度奖励基于提示引导的问题。大量实验表明,Table-R1 在保留数据集和保留数据集上都能明显提高模型的表推理性能,大大优于 SFT 和 GRPO。值得注意的是,带有 Table-R1 的 Qwen2-VL-7B 超越了更大的特定表理解模型(例如 Table-LLaVA 13B),甚至在保留数据集上实现了与闭源模型 GPT-4o 相当的性能,证明了 Table-R1 每个阶段在克服初始化瓶颈和奖励稀疏性方面的功效,从而推进了稳健的多模态表理解 ...
收集大规模的自然驾驶数据对于训练强大的自动驾驶规划者至关重要。然而,现实世界的数据集往往包含大量重复和低价值的样本,这导致存储成本过高,给政策学习带来的好处有限。为了解决这个问题,我们提出了一种信息论数据修剪方法,可以在不影响模型性能的情况下有效减少训练数据量。我们的方法评估驾驶数据的轨迹分布信息熵,并迭代选择高价值样本,以与模型无关的方式保留原始数据集的统计特征。从理论角度来看,我们表明最大化轨迹熵可以有效限制剪枝子集与原始数据分布之间的 Kullback-Leibler 散度,从而保持泛化能力。使用大规模模仿学习框架在 NuPlan 基准上进行的综合实验表明,所提出的方法可以在保持闭环性能的同时将数据集大小减少多达 40%。这项工作为自动驾驶系统中的可扩展数据管理和高效策略学习提供了一种轻量级且有理论依据的方法 ...
图形用户界面(GUI)基础是计算机使用代理的一项关键功能,它将自然语言指令映射到可操作的屏幕区域。基于多模态大语言模型(MLLM)的现有方法通常将其表述为基于文本的坐标生成任务,但直接从视觉输入生成精确坐标仍然具有挑战性且计算量大。实现 GUI 接地的直观方法是首先选择与指令相关的视觉补丁,然后确定这些补丁内的精确点击位置。基于对一般 MLLM 具有一些嵌套在其注意力内的本机基础能力的观察,我们提出了 GUI-AIMA,这是一种基于注意力、无坐标的监督微调框架,用于高效的 GUI 基础。 GUI-AIMA 将 MLLM 的内在多模态注意力与补丁接地信号结合起来。通过在简化的查询视觉注意矩阵上进行多头聚合,针对不同的用户指令自适应地计算这些信号。此外,其无坐标方式可以轻松集成即插即用的放大舞台。 GUI-AIMA-3B 仅使用 85k 屏幕截图进行训练,展示了卓越的数据效率并验证了轻训练可以触发 MLLM 的本机接地功能。它在 3B 模型中实现了最先进的性能,在 ScreenSpot-Pro 上的平均准确率达到 59.6%,在 OSWorld-G 上达到 63.8%,在 ScreenSpot-v2 上达到 91.5%。项目页面:此 https URL ...
随着社交媒体的盛行,最近出现了越来越多的推荐者,他们将重点从个人建模转向群体推荐。由于群体偏好是群体成员各种偏好的混合体,因此群体推荐的根本挑战是对成员之间的相关性进行建模。现有方法大多采用启发式或基于注意力的偏好聚合策略来综合群体偏好。然而,这些模型主要关注用户的成对连接,而忽略了群体内外复杂的高阶交互。此外,由于组项交互严重稀疏,组推荐严重受到数据稀疏问题的影响。在本文中,我们提出了一种用于群体推荐的自监督超图学习框架,以实现两个目标:(1)捕获用户之间的组内和组间交互; (2)缓解原始数据本身的数据稀疏问题。从技术上讲,对于(1),开发了基于用户级和组级超图的分层超图卷积网络,以对组内和组外用户之间复杂的元组相关性进行建模。对于(2),我们设计了一种双尺度节点丢失策略来创建自我监督信号,该信号可以针对稀疏问题以不同粒度规范用户表示。对多个基准数据集的实验分析证明了该模型的优越性,并阐明了超图建模和双尺度自监督的合理性 ...
当前的图像超分辨率方法在自然图像上表现出强大的性能,但会扭曲文本,从而在图像质量和文本可读性之间建立了基本的权衡。为了解决这个问题,我们引入了 TIGER(文本图像引导超分辨率),这是一种新颖的两阶段框架,通过“文本优先,图像之后”范例打破了这种权衡。 TIGER 明确地将字形恢复与图像增强解耦:它首先重建精确的文本结构并使用它们来指导全图像超分辨率。这确保了高保真度和可读性。为了支持全面的训练和评估,我们提出了UZ-ST(UltraZoom-Scene Text)数据集,这是第一个具有极限缩放的中文场景文本数据集。大量实验表明 TIGER 实现了最先进的性能,增强了可读性和图像质量 ...
多模式内容共享平台的蓬勃发展推动了个性化推荐系统的发展。以前的工作通常面临数据稀疏和冷启动问题,并且可能无法从多模态数据中充分探索语义用户-产品关联。为了解决这些问题,我们提出了一种新颖的多模态超图对比学习(MMHCL)框架用于用户推荐。为了从用户-产品关系中进行全面的信息探索,我们构建了两个超图,即用户到用户(u2u)超图和项目到项目(i2i)超图,以分别挖掘用户之间的共享偏好和项目之间复杂的多模态语义相似性。这个过程产生更密集的二阶语义,与一阶用户-项目交互融合作为补充,以缓解数据稀疏问题。然后,我们通过应用协同对比学习来设计对比特征增强范例。通过最大化/最小化相同/不同用户和项目的二阶(例如用户的共享偏好模式)和一阶(用户选择的项目的信息)嵌入之间的互信息,可以有效增强特征的可区分性。与仅使用稀疏的主用户-项目交互相比,我们的MMHCL获得更密集的二阶超图并挖掘更丰富的共享属性来探索用户-产品关联,这在一定程度上缓解了数据稀疏和冷启动的问题。大量的实验全面证明了我们方法的有效性。我们的代码可在以下位置公开获取:此 https URL ...
我们解决了从单目图像准确估计 3D 人体姿势和形状的挑战。准确性和鲁棒性的关键在于高质量的训练数据。包含具有伪地面实况 (pGT) 的真实图像的现有训练数据集使用 SMPLify 将 SMPL 拟合到稀疏 2D 关节位置,假设具有默认内在函数的简化相机。我们在提高 pGT 准确性方面做出了两项贡献。首先,为了估计相机的内在特性,我们开发了一个视场预测模型 (HumanFoV),该模型在包含人物的图像数据集上进行训练。我们通过在 SMPLify 拟合期间合并全透视相机模型,使用估计的内在函数来增强 4D-Humans 数据集。其次,2D 关节对 3D 身体形状提供有限的约束,导致身体看起来很普通。为了解决这个问题,我们使用 BEDLAM 数据集来训练密集表面关键点检测器。我们将此检测器应用于 4D-Humans 数据集,并修改 SMPLify 以适应检测到的关键点,从而产生更加真实的身体形状。最后,我们升级了 HMR2.0 架构以包含估计的相机参数。我们迭代模型训练和使用先前训练的模型初始化的 SMPLify 拟合。这带来了更准确的 pGT 和具有最先进准确度的新模型 CameraHMR。代码和 pGT 可用于研究目的 ...
在复杂、非结构化的环境中实现稳健的人形徒步旅行需要从反应性本体感受转变为主动感知。然而,整合外感受仍然是一个重大挑战:基于映射的方法会受到状态估计漂移的影响;例如,基于激光雷达的方法不能很好地处理躯干抖动。现有的端到端方法常常难以应对可扩展性和训练复杂性;具体来说,之前的一些使用虚拟障碍的作品是逐案实施的。在这项工作中,我们提出了 \textit{Hiking in the Wild},这是一个可扩展的、端到端的跑酷感知框架,专为强大的人形徒步旅行而设计。为了确保安全和训练稳定性,我们引入了两个关键机制:立足点安全机制,将可扩展的 \textit{地形边缘检测} 与 \textit{脚部体积点} 相结合,以防止边缘发生灾难性滑动;以及 \textit{平坦补丁采样} 策略,通过生成可行的导航目标来减轻奖励黑客攻击。我们的方法利用单阶段强化学习方案,将原始深度输入和本体感觉直接映射到联合动作,而不依赖于外部状态估计。对全尺寸人形机器人进行的广泛现场实验表明,我们的策略能够以高达 2.5 m/s 的速度稳健地穿越复杂地形。训练和部署代码是开源的,以促进在真实机器人上进行可重复的研究和部署,只需最少的硬件修改 ...
我们提出了 Logics-STEM,这是一种在 Logics-STEM-SFT-Dataset 上进行微调的最先进的推理模型,Logics-STEM-SFT-Dataset 是一个 10M 规模的高质量且多样化的数据集,代表了最大规模的开源长思想链语料库之一。 Logics-STEM 针对科学、技术、工程和数学 (STEM) 领域的推理任务,在 STEM 相关基准测试中表现出卓越的性能,在 8B 规模下比次佳模型平均提高了 4.68%。我们将收益归因于我们的数据算法协同设计引擎,它们被联合优化以适应推理背后的黄金标准分布。在数据方面,Logics-STEM-SFT-Dataset由精心设计的数据管理引擎构建而成,分为5个阶段,以确保质量、多样性和可扩展性,包括注释、重复数据删除、去污、蒸馏和分层采样。在算法方面,我们的故障驱动后训练框架在监督微调(SFT)阶段利用围绕模型故障区域的有针对性的知识检索和数据合成,有效指导第二阶段SFT或强化学习(RL),以更好地拟合目标分布。 Logics-STEM 卓越的实证性能揭示了将大规模开源数据与精心设计的合成数据相结合的巨大潜力,强调了数据算法协同设计在通过后期训练增强推理能力方面的关键作用。我们公开了 Logics-STEM 模型(8B 和 32B)和 Logics-STEM-SFT-Dataset(10M 和下采样 2.2M 版本),以支持开源社区的未来研究 ...
在本文中,我们解决了多模态到语音生成的任务,其目的是从多种输入模态(文本、视频和参考音频)合成高质量的语音。这项任务因其广泛的应用而受到越来越多的关注,例如电影制作、配音和虚拟化身。尽管最近取得了进展,但现有方法在语音清晰度、音频视频同步、语音自然度以及与参考说话人的语音相似度方面仍然受到限制。为了应对这些挑战,我们提出了 AlignDiT,这是一种多模态对齐扩散 Transformer ,可以从对齐的多模态输入生成准确、同步且自然的语音。 AlignDiT 基于 DiT 架构的上下文学习能力,探索了三种有效的策略来对齐多模态表示。此外,我们引入了一种新颖的多模态无分类器引导机制,该机制允许模型在语音合成过程中自适应地平衡来自每种模态的信息。大量实验表明,AlignDiT 在多个基准测试中在质量、同步性和说话人相似性方面显着优于现有方法。此外,AlignDiT 在各种多模态任务中表现出强大的泛化能力,例如视频语音合成和视觉强制对齐,始终如一地实现最先进的性能。演示页面可通过此 https URL 获取 ...