我们引入了 SessionRec,这是一种用于生成顺序推荐的新颖的下一个会话预测范式(NSPP),解决了传统的下一项预测范式(NIPP)和现实世界推荐场景之间的根本不一致问题。与与实际基于会话的用户交互相矛盾的 NIPP 项目级自回归生成不同,我们的框架通过分层序列聚合(会话内/会话间)引入了会话感知表示学习,降低了注意力计算复杂性,同时实现了大规模负面交互的隐式建模,以及基于会话的预测目标,通过在下一个会话中的多项目推荐更好地捕获用户的不同兴趣。此外,我们发现,在下一个会话预测范式下合并会话内项目的排名损失可以显着提高生成序列推荐模型的排名有效性。我们还验证了 SessionRec 表现出与 LLM 中观察到的清晰的幂律缩放定律。在公共数据集和美团App在线A/B测试上进行的大量实验证明了SessionRec的有效性。所提出的范例通过其与模型无关的架构和计算效率为开发工业规模的生成推荐系统奠定了新的基础 ...

0 0 0 0 2026/04/04 arXiv:2502.10157v2 sunchuan04

发现新意图是对话系统中的一项关键任务。大多数现有方法在将先验知识从已知意图转移到新意图方面受到限制。这些方法在提供高质量的监督信号来学习聚类友好的特征以对未标记的意图进行分组方面也存在困难。在这项工作中,我们提出了一种有效的方法(深度对齐聚类)来借助有限的已知意图数据来发现新意图。首先,我们利用一些标记的已知意图样本作为先验知识来预训练模型。然后,我们执行 k 均值以生成作为伪标签的簇分配。此外,我们提出了一种对齐策略来解决聚类分配期间的标签不一致问题。最后,我们在对齐的伪标签的监督下学习意图表示。对于未知数量的新意图,我们通过消除低置信度意图集群来预测意图类别的数量。对两个基准数据集的大量实验表明,我们的方法更加稳健,并且比最先进的方法取得了实质性改进。(代码可在此 https URL 中找到) ...

0 0 0 0 2026/04/04 arXiv:2012.08987v7 jeffreyliu

开发能够真正终身学习的人工智能应用程序的一个主要障碍是,人工神经网络在接受新任务训练时会很快或灾难性地忘记以前学到的任务。目前正在提出许多减轻灾难性遗忘的方法,但评估协议的差异使得直接比较它们的性能变得困难。为了进行更有意义的比较,这里我们根据任务身份是否已知以及如果不知道是否需要推断,确定了三种不同的持续学习场景。根据这些场景执行分割和排列的 MNIST 任务协议,我们发现当需要推断任务身份时,基于正则化的方法(例如弹性权重合并)会失败。相比之下,生成重放与蒸馏相结合(即使用类别概率作为“软目标”)在所有三种情况下都取得了优异的性能。为了解决效率问题,我们通过配备生成反馈或后向连接将生成模型集成到主模型中,从而降低了生成重放的计算成本。这种通过反馈重放的方法大大缩短了训练时间,并且性能没有损失或可以忽略不计。我们相信,这是使强大的生成重放技术可扩展到现实世界的持续学习应用程序的重要的第一步 ...

0 0 0 0 2026/04/04 arXiv:1809.10635v2 Serendipity

标准人工神经网络存在众所周知的灾难性遗忘问题,使得机器学习难以持续或终身学习。近年来,人们提出了许多持续学习的方法,但由于评估协议的差异,很难直接比较它们的性能。为了实现更结构化的比较,我们根据测试时是否提供任务身份以及是否必须推断任务身份(如果没有提供)来描述三个持续学习场景。可以根据每个场景执行任何明确定义的任务序列。使用分割和排列的 MNIST 任务协议,对于每个场景,我们对最近提出的持续学习方法进行了广泛的比较。我们证明了这三种场景在难度和不同方法的效率方面存在显着差异。特别是,当必须推断任务身份(即类增量学习)时,我们发现基于正则化的方法(例如弹性权重合并)会失败,并且似乎需要重放先前经验的表示来解决这种情况 ...

0 0 0 0 2026/04/04 arXiv:1904.07734v1 Serendipity

具身问答(EQA)主要关注室内环境,而城市环境的复杂性——涵盖环境、行动和感知——基本上未被探索。为了弥补这一差距,我们引入了 CityEQA,这是一项新任务,具体代理通过在动态城市空间中的积极探索来回答开放词汇问题。为了支持这项任务,我们推出了 CityEQA-EC,这是第一个基准数据集,包含 6 个类别的 1,412 个人工注释任务,基于真实的 3D 城市模拟器。此外,我们提出了 Planner-Manager-Actor (PMA),这是一种为 CityEQA 量身定制的新型代理。 PMA 支持长期规划和分层任务执行:Planner 将问题回答分解为子任务,Manager 在过程控制期间维护以对象为中心的认知图以进行空间推理,而专门的 Actor 则处理导航、探索和收集子任务。实验表明,PMA 的回答准确率达到了人类水平的 60.7%,显着优于竞争基准。虽然前景光明,但与人类相比的性能差距凸显了 CityEQA 中增强视觉推理的需求。这项工作为城市空间智能的未来进步铺平了道路。数据集和代码可从此 https URL 获取 ...

0 0 0 0 2026/04/04 arXiv:2502.12532v3 wxq_04

人类演示视频是机器人学习的广泛可用的数据源,也是表达所需行为的直观用户界面。然而,由于较大的实施例差异和未观察到的动作参数,直接从非结构化人类视频中提取可重复使用的机器人操作技能具有挑战性。为了弥补这一体现差距,本文介绍了 XSkill,这是一种模仿学习框架,它 1)纯粹从未标记的人类和机器人操作视频中发现一种称为技能原型的跨体现表示,2)使用条件扩散策略将技能表示转移到机器人动作,最后,3)组合学习的技能来完成由人类提示视频指定的未见过的任务。我们在模拟和现实环境中的实验表明,所发现的技能原型促进了未见过的任务的技能转移和组合,从而产生了更通用和可扩展的模仿学习框架。基准测试、代码和定性结果位于此 https URL 上 ...

0 0 0 0 2026/04/04 arXiv:2307.09955v2 kavin

在本文中,我们关注长期持续学习(CL)任务,其中模型随着时间的推移从大量任务流中顺序学习,获取新知识,同时以类似于人类学习的方式保留以前学到的信息。与传统的 CL 设置不同,长期的 CL 涉及处理大量任务,这加剧了灾难性遗忘的问题。我们的工作旨在解决两个关键问题:1)现有的 CL 方法在长期 CL 的背景下表现如何? 2)我们如何减轻因长时间连续更新而产生的灾难性遗忘?为了应对这些挑战,我们提出了一种受人类长期持续学习记忆机制(Long-CL)启发的新颖框架。具体来说,我们引入了一种任务核心内存管理策略,可以有效地索引关键记忆,并随着学习的进展自适应地更新它们。此外,我们开发了一种长期记忆巩固机制,可以选择性地保留困难和有区别的样本,确保强大的知识保留。为了促进这一领域的研究,我们构建并发布了两个多模式和文本基准:MMLongCL-Bench 和 TextLongCL-Bench,为评估长期 CL 方法提供了宝贵的资源。实验结果表明,Long-CL 在两个基准上分别比之前的最先进技术高出 7.4% 和 6.5% AP,证明了我们方法的有效性 ...

0 0 0 0 2026/04/04 arXiv:2505.09952v1 kavin

意图检测是面向任务的对话系统中自然语言理解(NLU)单元的任务之一。超出范围 (OOS) 和超出域 (OOD) 输入可能会让这些系统出现问题。另一方面,需要一个标记数据集来训练面向任务的对话系统中的意图检测模型。创建标记数据集非常耗时并且需要人力资源。本文的目的是解决上述问题。识别 OOD/OOS 输入的任务称为 OOD/OOS 意图检测。此外,意图发现还众所周知地发现 OOD 输入的新意图和伪标签。在 OOD 意图检测部分,我们利用变分自动编码器来区分已知和未知意图,而与输入数据分布无关。之后,使用无监督聚类方法来发现 OOD/OOS 输入背后的不同未知意图。我们还在 OOD/OOS 表示上应用非线性降维,以使表示之间的距离对于聚类来说更有意义。我们的结果表明,所提出的 OOD/OOS 意图检测和意图发现模型都取得了很好的结果,并通过了英语和波斯语的基线 ...

0 0 0 0 2026/04/04 arXiv:2303.04134v2 jeffreyliu

在策略深度强化学习算法数据利用率低,需要大量经验来进行策略改进。本文提出了一种优先轨迹重放的近端策略优化算法(PTR-PPO),该算法结合了在策略和离策略方法,通过优先重放旧策略生成的轨迹来提高采样效率。我们首先根据轨迹的特征设计三个轨迹优先级:前两个是基于一步经验广义优势估计(GAE)值的最大和平均轨迹优先级,最后一个是基于归一化未贴现累积奖励的奖励轨迹优先级。然后,我们将优先轨迹重放融入到PPO算法中,提出一种截断重要性权重方法来克服多步经验下大重要性权重带来的高方差,并设计了离策略条件下PPO的策略改进损失函数。我们评估了 PTR-PPO 在一组 Atari 离散控制任务中的性能,实现了最先进的性能。此外,通过分析训练期间优先级内存中各个位置的优先级变化热图,我们发现内存大小和转出长度会对轨迹优先级的分布产生重大影响,从而对算法的性能产生重大影响 ...

0 0 0 0 2026/04/04 arXiv:2112.03798v2 H-I-AM

当前的人形运动跟踪系统可以执行常规和适度的动态行为,但在硬件性能限制和算法鲁棒性边界附近仍然存在显着差距。武术代表了高度动态的人体运动的极端情况,其特点是快速的质心转移、复杂的协调和突然的姿势转换。然而,针对这种高强度场景定制的数据集仍然很少。为了解决这一差距,我们构建了 KungFuAthlete,这是一个源自专业运动员日常训练视频的高动态武术运动数据集。该数据集包括覆盖代表性复杂运动模式的地面和跳跃子集。与 LAFAN1、PHUMA 和 AMASS 等常用数据集相比,跳跃子集表现出更高的关节速度、线性速度和角速度,表明运动强度和复杂性显着增加。重要的是,即使是专业运动员也可能在高动态运动中失败。同样,人形机器人也容易不稳定,容易受到外部干扰或执行错误的影响。大多数先前的工作假设运动执行保持在安全状态下,并且缺乏对不安全状态进行建模和实现可靠的自主恢复的统一策略。我们提出了一种新颖的训练范例,使单一策略能够共同学习高动态运动跟踪和跌倒恢复,将敏捷执行和稳定性统一在一个框架内。该框架将机器人功能从纯粹的运动跟踪扩展到支持恢复的执行,从而在现实世界的高动态场景中促进更强大和自主的人形性能 ...

0 0 0 0 2026/04/04 arXiv:2602.13656v1 lrk