文本到视频(T2V)生成在基于文本生成复杂场景方面取得了巨大进步。然而,由于缺乏具有精确 HOI 字幕的大规模视频,当前的 T2V 模型通常无法精确生成人与物体交互(HOI)。为了解决这个问题,我们引入了 HOIGen-1M,这是 HOI Generation 的第一个大型数据集,由从不同来源收集的超过一百万个高质量视频组成。特别是,为了保证视频的高质量,我们首先设计一个高效的框架,使用强大的多模态大语言模型(MLLM)自动管理 HOI 视频,然后由人类注释者进一步清理视频。此外,为了获得 HOI 视频的准确文本字幕,我们设计了一种基于多模态专家混合 (MoME) 策略的新型视频描述方法,该方法不仅生成富有表现力的字幕,而且消除了个体 MLLM 的幻觉。此外,由于缺乏生成的 HOI 视频的评估框架,我们提出了两个新的指标来以从粗到细的方式评估生成视频的质量。大量实验表明,当前的 T2V 模型难以生成高质量的 HOI 视频,并证实我们的 HOIGen-1M 数据集有助于改进 HOI 视频生成。项目网页可通过此 https URL 获取 ...
大型推理模型(LRMS),例如OpenAI-O1和DeepSeek-R1,表现出令人印象深刻的长途推理能力。但是,他们对静态内部知识的依赖将其表现限制在复杂,知识密集的任务上,并阻碍了他们生成需要综合不同Web信息的全面研究报告的能力。为了解决这个问题,我们建议\ textbf {WebThinker},这是一位深入的研究代理,授权LRMS自主搜索网络,导航网页和在推理过程中的研究报告草案草案 ...
多跳推理需要基于给定上下文中的支持文档进行多步推理,这对于大型语言模型 (LLM) 来说仍然具有挑战性。 LLM 通常很难过滤掉上下文中不相关的文档,并且他们的表现对该上下文中支持文档的绝对位置很敏感。在本文中,我们发现了另一个挑战: LLM 的表现也对支持文件的顺序、相对位置很敏感。我们将此称为上下文混乱问题。为了解决这个问题,基于理论方法,我们提出了一种简单而有效的方法,称为上下文重复(CoRe),其中涉及通过重复呈现上下文来提示模型。这确保了支持文档中的某些连续推理段以最佳顺序呈现,从而有效地引导模型在适当的方向上进行推理。应用 CoRe,我们将多跳 QA 任务的 F1 分数提高了高达 30%p,并将综合任务的准确性提高了高达 70%p。此外,CoRe 有助于缓解 LLM 中众所周知的“中间迷失”问题,并且可以与利用思想链 (CoT) 推理的基于检索的方法有效结合 ...
随着驱动、传感和控制方面的进步使得动态、现实世界的能力日益增强,运动类人机器人的发展受到了极大的关注。 RoboCup 是一项完全自主人形机器人的国际竞赛,为此类系统提供了一个独特的挑战性基准,最终实现了到 2050 年与人类足球运动员竞争的长期目标。本文介绍了我们团队在 2024 年 RoboCup 成人人形足球比赛中获胜的硬件和软件创新。在硬件方面,我们推出了一个成人尺寸的人形平台,采用轻质结构组件、高扭矩准直接驱动执行器和专门的足部设计,可在保持运动稳健性的同时实现强大的步态踢腿。在软件方面,我们开发了一个集成的感知和定位框架,该框架结合了立体视觉、物体检测和基于地标的融合,以提供对球、进球、队友和对手的可靠估计。然后,中层导航堆栈生成碰撞感知、动态可行的轨迹,而集中式行为管理器则根据不断发展的游戏状态协调高层决策、角色选择和踢球执行。这些子系统的无缝集成可实现快速、精确且战术有效的游戏玩法,从而在真实比赛的动态和对抗条件下实现稳健的性能。本文介绍了 ARTEMIS 成功成为 2024 年成人人形足球冠军的设计原理、系统架构和实验结果 ...
近年来,通过自监督学习(SSL)预训练的基础模型在各种音乐信息学理解任务中取得了成功,包括音乐标签、乐器分类、调检测等。在本文中,我们提出了一种用于音乐理解的自监督音乐表征学习模型。与之前采用随机投影或现有神经编解码器的研究不同,所提出的模型名为 MuQ,经过训练来预测梅尔残差向量量化(Mel-RVQ)生成的标记。我们的Mel-RVQ利用残差线性投影结构进行Mel谱量化,以增强目标提取的稳定性和效率,并带来更好的性能。各种下游任务的实验表明,MuQ 仅用 0.9K 小时的开源预训练数据就优于之前的自监督音乐表示模型。将数据扩展至超过 16 万小时并采用迭代训练不断提高模型性能。为了进一步验证我们模型的强度,我们提出了 MuQ-MuLan,这是一种基于对比学习的联合音乐文本嵌入模型,它在 MagnaTagATune 数据集上的零样本音乐标记任务中实现了最先进的性能。代码和检查点在此 https URL 中开源 ...
多跳问答 (MHQA) 需要一个模型来检索和集成多个段落中的信息来回答复杂的问题。最近的系统利用大型语言模型的力量,并将证据检索与 MHQA 任务的推理提示(例如,思想链推理)相结合。然而,问题类型(桥梁与比较问题)和推理类型(顺序与并行推理)的复杂性需要更新颖、更细粒度的提示方法来增强 MHQA 在零样本设置下的性能。在本文中,我们提出了一种针对 MHQA 的带约束解码的随机思想树推理提示方法 STOC-TOT,并在不同问题类型和推理类型上与其他推理提示进行了详细比较。具体来说,我们通过提示模型将原始问题分解为更小的子问题以形成不同的推理路径来构建树状推理结构。此外,我们提示模型在每个推理步骤中为每个推理路径提供概率估计。在回答时,我们对模型进行约束解码,以生成更有根据的答案并减少幻觉。将 STOC-TOT 与两个 MHQA 数据集和五个大型语言模型进行比较的实验表明,我们的框架明显优于其他推理提示 ...
生成推荐 (GR) 是一种新兴范例,它通过标记器将每个项目表示为 n 位语义 ID (SID),并通过根据用户历史记录自回归生成其 SID 来预测下一个项目。然而,SID 的两个结构特性使得 ARM 不适合。首先,项目内一致性:n 个数字共同指定一个项目,但从左到右的因果关系仅在其前缀下训练每个数字并阻止双向跨数字证据,将监督折叠为单个因果路径。其次,数字之间的异质性:数字在语义粒度和可预测性方面有所不同,而统一的下一个标记目标为所有数字分配相同的权重,过度训练简单的数字而训练不足的困难数字。为了解决这两个问题,我们提出了 DiffGRM,一种基于扩散的 GR 模型,用屏蔽离散扩散模型 (MDM) 取代自回归解码器,从而实现双向上下文和任意顺序并行生成 SID 数字以进行推荐。具体来说,我们在三个方面定制了DiffGRM:(1)使用并行语义编码(PSE)进行标记化,以解耦数字并平衡每个数字的信息; (2) 使用同策略相干噪声 (OCN) 进行训练,通过相干掩蔽对不确定数字进行优先级排序,以将监督集中在高价值信号上; (3) 使用置信引导的并行去噪 (CPD) 进行推理,首先填充置信度较高的数字并生成不同的 Top-K 候选数字。实验表明,在多个数据集上,与强大的生成和判别推荐基线相比,取得了一致的收益,将 NDCG@10 提高了 6.9%-15.5%。代码可从此 https URL 获取 ...
不规则的多元时间序列(IMT),其特征是采样不均和变化异步,为许多预测的应用提供了许多预测的应用,但仍具有效地建模。在IMTS建模中,通过在每个全球时间戳进行填充零来广泛采用规范的预一致性(CPA),从而减轻了相互变化的异步并统一了系列长度,但其密集的零式填充量会膨胀预先一致的系列长度,尤其是当许多变化的序列中,尤其是在许多变化中都出现了许多变化,会出现许多变化。最新的基于图形的模型具有修补策略的避免CPA,但是他们的本地信息传递了捕获全局变化的相关性的努力 ...
未知环境中的自主探索需要估计行动的信息增益以指导规划决策。虽然现有方法通常计算离散路径点处的信息增益,但路径积分提供了更全面的估计,但通常在计算上具有挑战性或不可行,并且容易高估。在这项工作中,我们提出了带有地图预测探索(PIPE)规划器的路径信息增益,它沿着计划轨迹集成累积传感器覆盖范围,同时利用地图预测来减轻高估。为了实现高效的路径覆盖计算,我们引入了一种方法来有效计算沿计划路径的预期观测掩模,从而显着减少计算开销。我们在现实世界的平面图数据集上验证 PIPE,证明其比最先进的基线具有优越的性能。我们的结果强调了将预测映射与路径信息增益相结合以实现高效和知情探索的好处。网站:此 https URL ...
算法设计(AD)对于有效解决各个领域的问题至关重要。大型语言模型 (LLM) 的出现显着增强了该领域的自动化和创新,提供了新的视角和有前景的解决方案。在过去的三年里, LLM 与AD的整合(LLM4AD)取得了实质性进展,其应用领域涵盖优化、机器学习、数学推理和科学发现。鉴于该领域的快速发展和范围不断扩大,系统评价既及时又必要。本文对 LLM4AD 进行了系统回顾。首先,我们对现有研究进行概述和总结。然后,我们介绍了分类法,并从四个维度回顾了文献: LLM 的作用、搜索方法、提示方法和应用领域,并讨论了 LLM 在AD领域的潜力和成就。最后,我们确定了当前的挑战并强调了未来研究的几个有希望的方向 ...