意图检测是面向任务的对话系统中自然语言理解(NLU)单元的任务之一。超出范围 (OOS) 和超出域 (OOD) 输入可能会让这些系统出现问题。另一方面,需要一个标记数据集来训练面向任务的对话系统中的意图检测模型。创建标记数据集非常耗时并且需要人力资源。本文的目的是解决上述问题。识别 OOD/OOS 输入的任务称为 OOD/OOS 意图检测。此外,意图发现还众所周知地发现 OOD 输入的新意图和伪标签。在 OOD 意图检测部分,我们利用变分自动编码器来区分已知和未知意图,而与输入数据分布无关。之后,使用无监督聚类方法来发现 OOD/OOS 输入背后的不同未知意图。我们还在 OOD/OOS 表示上应用非线性降维,以使表示之间的距离对于聚类来说更有意义。我们的结果表明,所提出的 OOD/OOS 意图检测和意图发现模型都取得了很好的结果,并通过了英语和波斯语的基线 ...

0 0 0 0 2026/04/04 arXiv:2303.04134v2 jeffreyliu

在策略深度强化学习算法数据利用率低,需要大量经验来进行策略改进。本文提出了一种优先轨迹重放的近端策略优化算法(PTR-PPO),该算法结合了在策略和离策略方法,通过优先重放旧策略生成的轨迹来提高采样效率。我们首先根据轨迹的特征设计三个轨迹优先级:前两个是基于一步经验广义优势估计(GAE)值的最大和平均轨迹优先级,最后一个是基于归一化未贴现累积奖励的奖励轨迹优先级。然后,我们将优先轨迹重放融入到PPO算法中,提出一种截断重要性权重方法来克服多步经验下大重要性权重带来的高方差,并设计了离策略条件下PPO的策略改进损失函数。我们评估了 PTR-PPO 在一组 Atari 离散控制任务中的性能,实现了最先进的性能。此外,通过分析训练期间优先级内存中各个位置的优先级变化热图,我们发现内存大小和转出长度会对轨迹优先级的分布产生重大影响,从而对算法的性能产生重大影响 ...

0 0 0 0 2026/04/04 arXiv:2112.03798v2 H-I-AM

当前的人形运动跟踪系统可以执行常规和适度的动态行为,但在硬件性能限制和算法鲁棒性边界附近仍然存在显着差距。武术代表了高度动态的人体运动的极端情况,其特点是快速的质心转移、复杂的协调和突然的姿势转换。然而,针对这种高强度场景定制的数据集仍然很少。为了解决这一差距,我们构建了 KungFuAthlete,这是一个源自专业运动员日常训练视频的高动态武术运动数据集。该数据集包括覆盖代表性复杂运动模式的地面和跳跃子集。与 LAFAN1、PHUMA 和 AMASS 等常用数据集相比,跳跃子集表现出更高的关节速度、线性速度和角速度,表明运动强度和复杂性显着增加。重要的是,即使是专业运动员也可能在高动态运动中失败。同样,人形机器人也容易不稳定,容易受到外部干扰或执行错误的影响。大多数先前的工作假设运动执行保持在安全状态下,并且缺乏对不安全状态进行建模和实现可靠的自主恢复的统一策略。我们提出了一种新颖的训练范例,使单一策略能够共同学习高动态运动跟踪和跌倒恢复,将敏捷执行和稳定性统一在一个框架内。该框架将机器人功能从纯粹的运动跟踪扩展到支持恢复的执行,从而在现实世界的高动态场景中促进更强大和自主的人形性能 ...

0 0 0 0 2026/04/04 arXiv:2602.13656v1 lrk

水下模拟器为构建强大的水下感知解决方案提供支持。最近在开发新模拟器和提高现有水下模拟器的性能方面进行了大量工作。尽管如此,基于物理的水下传感器建模和渲染效率仍有改进的空间。在本文中,我们提出了 OceanSim,一种高保真 GPU 加速的水下模拟器,以解决这一研究空白。我们提出了先进的基于物理的渲染技术,以减少水下图像模拟的模拟与真实的差距。我们开发OceanSim是为了充分利用GPU的计算优势,实现实时成像声纳渲染和快速合成数据生成。我们使用真实世界数据来评估 OceanSim 的功能和真实性,以提供定性和定量结果。代码和详细文档可在项目网站上获取,以支持海洋机器人社区:此 https URL ...

0 0 0 0 2026/04/04 arXiv:2503.01074v2 hulin01

随着大型语言模型代理在现实世界中持续扮演的角色越来越多地采用,它们自然会遇到连续的任务流。然而,一个关键的限制是他们无法从积累的交互历史中学习,迫使他们放弃有价值的见解并重复过去的错误。我们提出 ReasoningBank,这是一种新颖的记忆框架,可以从智能体自我判断的成功和失败经验中提炼出通用的推理策略 ...

0 0 0 0 2026/04/03 arXiv:2509.25140v2 assassinkkkk

GUI 代理已成为数字环境中自动化交互的强大范例,但实现广泛的通用性和持续强大的任务性能仍然具有挑战性。在本报告中,我们介绍了 UI-Venus-1.5,这是一个统一的端到端 GUI 代理,专为强大的实际应用程序而设计。所提出的模型系列包括两种密集变体(2B和8B)和一种专家混合变体(30B-A3B),以满足各种下游应用场景。与之前的版本相比,UI-Venus-1.5 引入了三项关键技术进步:(1)全面的中期训练阶段,利用 30 多个数据集的 100 亿个 Token 来建立基础 GUI 语义; (2)全轨迹推出的在线强化学习,使训练目标与大规模环境中的长视野、动态导航相一致; (3) 通过模型合并构建一个统一的 GUI 代理,它将特定领域的模型(地面、网络和移动)合成为一个内聚的检查点。广泛的评估表明,UI-Venus-1.5 在 ScreenSpot-Pro (69.6%)、VenusBench-GD (75.0%) 和 AndroidWorld (77.6%) 等基准测试中建立了新的最先进性能,显着优于之前的强大基准。此外,UI-Venus-1.5在各种中国移动应用程序中展示了强大的导航功能,在现实场景中有效执行用户指令。代码:此 https URL 模型:此 https URL ...

0 1 0 0 2026/04/03 arXiv:2602.09082v2 chenxiaoli

Token 是LLM培训数据集中的基本元素。众所周知,在GPT词汇中代表中国短语的许多 Token (4o/4o-Mini/O1/O3/4.5/4 ...

0 0 0 0 2026/04/03 arXiv:2508.17771v2 manlinghun

妆容迁移旨在将参考脸部的妆容风格应用到目标脸部,并在实际应用中得到越来越多的采用。现有的基于 GAN 的方法通常依赖于精心设计的损失函数来平衡传输质量和面部身份一致性,而基于扩散的方法通常依赖于额外的面部控制模块或算法来保留身份。然而,这些辅助组件往往会引入额外的错误,导致传输结果不理想。为了克服这些限制,我们提出了 FLUX-Makeup,这是一种高保真、身份一致且强大的化妆传输框架,无需任何辅助面部控制组件。相反,我们的方法直接利用源参考图像对来实现卓越的传输性能。具体来说,我们在 FLUX-Kontext 上构建框架,使用源图像作为其本机条件输入。此外,我们还引入了 RefLoRAInjector,这是一种轻量级化妆特征注入器,它将参考路径与主干网络解耦,从而能够高效、全面地提取化妆相关信息。与此同时,我们设计了一个强大且可扩展的数据生成管道,以在训练期间提供更准确的监督。该管道生成的配对化妆数据集显着超过所有现有数据集的质量。大量实验表明,FLUX-Makeup 实现了最先进的性能,在不同场景下表现出强大的鲁棒性 ...

0 0 0 0 2026/04/03 arXiv:2508.05069v1 xuan

长视野会话代理需要持久记忆来进行连贯推理,但不受控制的积累会导致时间衰减和错误的记忆传播。 LOCOMO 和 LOCCO 等基准测试报告跨阶段性能下降从 0.455 到 0.05,而 MultiWOZ 在持久保留下显示出 78.2% 的准确率和 6.8% 的错误记忆率。这项工作引入了一种自适应预算遗忘框架,该框架通过相关性引导评分和有界优化来调节记忆。该方法集成了新近度、频率和语义对齐,以在受限上下文下保持稳定性。比较分析表明,在不增加上下文使用的情况下,长视野 F1 提高到超过 0.583 基线水平,保留一致性更高,并减少了错误记忆行为。这些发现证实,结构化遗忘可以保持推理性能,同时防止扩展对话环境中的记忆无限制增长 ...

0 0 0 0 2026/04/03 arXiv:2604.02280v1 humengliang

扩展定律验证了大数据训练模型在文本、图像和视频领域的创意生成中的成功和前景。然而,这种范式面临 3D 领域的数据稀缺,因为与上述模式相比,互联网上可用的数据要少得多。幸运的是,存在足够的视频,它们本质上包含常识性先验,提供替代的监督信号来减轻有限的原生 3D 数据造成的泛化瓶颈。一方面,捕捉物体或场景的多个视图的视频为 3D 生成提供了空间一致性。另一方面,视频中包含的丰富语义信息使得生成的内容更加忠实于文本提示并且语义上可信。本文探讨了如何在 3D 资产生成中应用视频模式,涵盖数据集到模型。我们引入了 Droplet3D-4M,这是第一个具有多视图级别注释的大规模视频数据集,并训练了 Droplet3D,这是一种支持图像和密集文本输入的生成模型。大量的实验验证了我们方法的有效性,证明了其生成空间一致且语义上可信的内容的能力。此外,与流行的 3D 解决方案相比,我们的方法展现了扩展到场景级应用程序的潜力。这表明视频中的常识先验极大地促进了 3D 创作。我们开源了所有资源,包括数据集、代码、技术框架和模型权重:这个 https URL ...

0 0 0 0 2026/04/03 arXiv:2508.20470v1 GUN