预测是众多领域决策中的一项关键任务。虽然历史数值数据提供了一个起点,但它们无法传达可靠和准确预测的完整背景。人类预测者经常依赖额外的信息,例如背景知识和约束,这些信息可以通过自然语言有效地传达。然而,尽管基于 LLM 的预测者最近取得了进展,但他们有效整合这些文本信息的能力仍然是一个悬而未决的问题。为了解决这个问题,我们引入了“上下文是关键”(CiK),这是一种时间序列预测基准,它将数值数据与精心设计的各种类型的文本上下文配对,要求模型集成这两种模式;至关重要的是,CiK 中的每项任务都需要理解文本上下文才能成功解决。我们评估了一系列方法,包括统计模型、时间序列基础模型和基于 LLM 的预测器,并提出了一种简单而有效的 LLM 提示方法,该方法在我们的基准测试中优于所有其他测试方法。我们的实验强调了整合上下文信息的重要性,展示了使用基于 LLM 的预测模型时令人惊讶的性能,并揭示了它们的一些关键缺点。该基准旨在通过推广准确且可供具有不同技术专长的决策者使用的模型来推进多模式预测。可以通过此 https URL 来查看基准测试 ...
我们提出了Hunyuanimage 3.0,这是一种本机的多模式模型,在自动回归框架内统一了多模式的理解和生成,其图像生成模块可公开可用。实现Hunyuanimage 3 ...
LLM 代理已成为通过交织内部推理和外部工具交互来处理多回合任务的强大系统。代理强化学习作为进一步完善这些能力的关键后训练范例,最近引起了广泛的研究关注。在本文中,我们提出了 AT$^2$PO(基于树搜索的代理回合策略优化),这是一个多回合代理强化学习的统一框架,解决了三个核心挑战:有限的探索多样性、稀疏的信用分配和不一致的策略优化。 AT$^2$PO 引入了回合级树结构,该结构共同实现了用于战略探索的熵引导树扩展和用于从稀疏结果进行细粒度奖励传播的回合明智信用分配。作为补充,我们提出了基于代理回合的策略优化,这是一种回合级学习目标,它将策略更新与代理交互的自然决策粒度保持一致。 ATPO 与树搜索正交,可以轻松集成到任何多轮 RL 管道中。七个基准的实验表明,与最先进的基准相比,平均提高了 1.84 个百分点,消融研究验证了每个组件的有效性。我们的代码可以在这个 https URL 上找到 ...
高保真运动跟踪是通用的人类水平运动技能的终极试金石。然而,当前的策略经常遇到“通用性障碍”:随着运动库的多样性扩展,跟踪保真度不可避免地会崩溃 - 特别是对于高动态运动的现实部署而言。我们将这种失败确定为两个复合因素的结果:扩展多运动优化中的学习瓶颈和现实世界驱动中出现的物理可执行性约束。为了克服这些挑战,我们引入了 OmniXtreme,这是一个可扩展的框架,可将一般运动技能学习与模拟到真实的身体技能精炼分离开来。我们的方法使用具有高容量架构的流匹配策略来扩展表示容量,而无需干扰密集型多运动 RL 优化,然后是驱动感知细化阶段,以确保物理硬件上的稳健性能。大量实验表明,OmniXtreme 可以在不同的高难度数据集上保持高保真度跟踪。在真实的机器人上,统一策略成功地执行了多种极端运动,有效地打破了高动态人形控制中长期存在的保真度与可扩展性的权衡 ...
近年来,无人机(UAV)在我们的日常生活中变得越来越流行,并引起了软件工程的巨大研究兴趣。与此同时,大型语言模型(LLM)在语言理解、推理和生成方面取得了显着的进步,使得LLM在无人机中的应用成为一个有前途的研究方向。然而,现有的研究大多停留在初步探索阶段,对现实世界实践的了解有限,这造成了学术界与工业界的差距,阻碍了 LLM 在无人机中的应用。为了解决这个问题,我们进行了第一项实证研究,以调查 LLM 如何支持无人机。为了描述现实世界中 UAV-LLM 实践的常见任务和应用场景,我们进行了一项大规模的实证研究,涉及 997 篇研究论文和 1,509 个 GitHub 项目。结果对 LLM 在现实无人机项目中承担的四个无人机工作流程(例如信息输入)中的九个常见任务(例如自然语言命令解析)进行了分类,并揭示了研究工作和行业实践的任务分配的巨大差异。为了更深入地了解这些差异并了解开发人员对LLM在无人机中的应用的看法,我们对从业者进行了一项调查,收到了来自15个国家的52份有效回复。结果显示,虽然 40.4% 的开发人员尝试将 LLM 应用于无人机任务,但 59.6% 的开发人员仍面临将其无人机项目与先进的 LLM 功能集成的挑战。他们的反馈将这些挑战归因于五个因素,包括技术成熟度、性能、安全性、成本等,并为研究人员和开发人员进行无人机 LLM 实践提供了实际意义 ...
虽然长篇小说推理对于推进大型语言模型(LLM)应用至关重要,但其预填充速度仍然是一个重要的瓶颈。当前的方法,包括序列并行策略和通过近似注意机制计算减少,仍然没有提供最佳的推理效率。这会阻碍将输入缩放到更长的序列,并及时处理长篇文章的查询 ...
当前的直接语音到语音翻译方法主要采用语音标记作为中间表示。然而,单个语音标记的语义并不密集,因此我们通常需要多个标记来表达一个完整的语义单元。为了解决这个限制,我们将多标记预测(MTP)损失引入到语音到单元翻译(S2UT)模型中,使模型能够预测每个位置的多个后续标记,从而捕获更完整的语义并增强每个位置的信息密度。最初的 MTP 实现在最后一层应用损失,这改善了输出表示,但启动信息丰富为时已晚。我们假设将信息丰富过程推进到中间层可以实现更早、更有效的隐藏表示增强。因此,我们提出 MTP-S2UT 损失,将 MTP 损失应用于计算 CTC 损失的隐藏表示。实验表明,所有 MTP 损失变体都能持续提高 S2UT 翻译的质量,其中 MTP-S2UT 实现了最佳性能 ...
卫星增强低空经济和地面网络(SLAETN)的发展需要能够在异构、动态和关键任务环境中可靠运行的智能和自主系统。为了应对这些挑战,本次调查的重点是通过生成人工智能 (GAI) 和大型语言模型 (LLM) 实现代理人工智能 (AI),即能够感知、推理和行动的人工智能代理。我们首先介绍 SLAETN 的架构和特性,并分析集成卫星、空中和地面组件时出现的挑战。然后,我们通过系统回顾五个主要类别的生成模型来提出模型驱动的基础:变分自动编码器(VAE)、生成对抗网络(GAN)、生成扩散模型(GDM)、基于 Transformer 的模型(TBM)和LLM。此外,我们还提供了比较分析,以突出它们在 SLAETN 内的生成机制、功能和部署权衡。在此基础上,我们研究了这些模型如何在三个领域赋予代理功能:通信增强、安全和隐私保护以及智能卫星任务。最后,我们概述了在 SLAETN 中构建可扩展、自适应且值得信赖的生成代理的关键未来方向。本调查旨在为下一代集成网络中推进代理人工智能提供统一的理解和可操作的参考 ...
带手臂的四足机器人的全身局部操纵仍然是一个具有挑战性的问题,特别是在实现多任务控制方面。为了解决这个问题,我们提出了 MLM,这是一种由现实世界和模拟数据驱动的强化学习框架。它使配备六自由度机械臂的四足机器人能够自主或在人类远程操作下执行多项任务的全身局部操纵。为了解决局部操作学习过程中平衡多个任务的问题,我们引入了一个具有自适应、基于课程的采样机制的轨迹库。这种方法允许策略有效地利用现实世界收集的轨迹来学习多任务局部操作。为了解决仅具有历史观察结果的部署场景,并提高跨不同空间范围的任务的策略执行性能,我们提出了轨迹速度预测策略网络。它预测了不可观测的未来轨迹和速度。通过利用大量的模拟数据和基于课程的奖励,我们的控制器实现了模拟中的全身行为以及零样本迁移到现实世界的部署。仿真中的消融研究验证了我们方法的必要性和有效性,而在带有 Airbot 机械臂的 Go2 机器人上进行的实际实验则证明了该策略在多任务执行中的良好性能 ...
本文回顾了 NTIRE 2025 RAW 图像恢复和超分辨率挑战赛,重点介绍了提出的解决方案和结果。 RAW 恢复和超分辨率的新方法在现代图像信号处理 (ISP) 管道中可能至关重要,但是,这个问题并未像 RGB 领域那样得到探讨。本次挑战的目标有两个,(i) 恢复模糊和噪声退化的 RAW 图像,(ii) 考虑到未知噪声和模糊,将 RAW Bayer 图像放大 2 倍。本次挑战赛共有 230 名参赛者报名,并在挑战期间提交了 45 名参赛者的成绩。本报告介绍了 RAW 修复领域的最新技术 ...