机器人技术的许多工作都集中在“人机循环”学习技术上,以提高学习过程的效率。然而,这些算法强烈假设有一个合作的人类主管来协助机器人。事实上,人类观察者也往往对已部署的机器人系统采取敌对的态度。我们证明,这实际上可以通过提出一个利用人类对手施加的扰动的物理框架来提高学习模型的鲁棒性,引导机器人建立更鲁棒的模型。在操纵任务中,我们表明,与以自我监督的方式进行训练相比,当机器人与人类对手一起训练时,抓取成功率显着提高 ...

0 0 0 0 2026/02/04 arXiv:1903.00636v2 hanzhuo

大型语言模型 (LLM) 向长上下文推理和稀疏架构的快速发展已将内存需求远远超出了单个设备 HBM 的容量。虽然新兴的超级节点架构通过高带宽互连提供 TB 级共享内存池,但现有的软件堆栈无法有效地利用该硬件。当前基于运行时的卸载和交换技术以本地视图运行,导致反应性调度和暴露的通信延迟,从而导致计算管道停顿。在本文中,我们提出了超级节点内存管理框架(\textbf{HyperOffload})。它采用编译器辅助方法,利用图形驱动的内存管理将远程内存访问视为计算图中的显式操作,专门为分层超级节点架构设计。与反应式运行时系统不同,SuperNode 使用编译器的中间表示 (IR) 内的缓存运算符来表示数据移动。这种设计可以对张量生命周期和执行依赖性进行全局编译时分析。利用这种可见性,我们开发了一种全局执行顺序细化算法,该算法静态调度数据传输,以隐藏计算密集型区域后面的远程内存延迟。我们在生产深度学习框架 MindSpore 中实现了 SuperNode,添加了远程内存后端和专门的编译器通道。对代表性 LLM 工作负载的评估表明,SuperNode 将推理的峰值设备内存使用量降低了高达 26%,同时保持端到端性能。我们的工作表明,将内存增强硬件集成到编译器的优化框架中对于扩展下一代人工智能工作负载至关重要 ...

0 0 0 0 2026/02/04 arXiv:2602.00748v2 jane88

大规模中文拼写纠正(CSC)对于现实世界的文本处理仍然至关重要,但现有的 LLM 和监督方法缺乏对新错误的鲁棒性,并且依赖于昂贵的注释。我们推出了 CEC-Zero,这是一种零监督强化学习框架,它通过使 LLM 能够纠正自己的错误来解决这个问题。 CEC-Zero 从干净文本中合成错误输入,通过语义相似性和候选一致性计算集群共识奖励,并使用 PPO 优化策略。它在 9 个基准中比监督基线高出 10--13 F$_1$ 点,并且在 9 个基准中比 LLM 的强大微调高出 5--8 点,并在理论上保证了公正的奖励和收敛。 CEC-Zero 为稳健、可扩展的 CSC 建立了无标签范例,在嘈杂的文本管道中释放了 LLM 的潜力 ...

0 0 0 0 2026/02/04 arXiv:2512.23971v1 Blueee0

事实证明,从大规模视频识别基础模型中迁移视觉语言知识是有效的。为了弥补域差距,添加了额外的参数模块来捕获时间信息。然而,零样本泛化随着专门参数数量的增加而减弱,使得现有的工作成为零样本和近集性能之间的权衡。在本文中,我们提出了 MoTE,这是一种新颖的框架,可以在一个统一模型中平衡泛化和专业化。我们的方法调整时间专家的组合来学习具有不同程度的数据拟合的多个任务视图。为了最大限度地保留每个专家的知识,我们提出了 \emph{权重合并正则化},它规范了权重空间中专家的合并过程。此外,还使用时间特征调制来规范测试期间时间特征的贡献。我们在零样本和近集视频识别任务之间实现了良好的平衡,并在各种数据集(包括 Kinetics-400 \& 600、UCF 和 HMDB)上获得了最先进的或有竞争力的结果。代码可在 \url{此 https URL} 获取 ...

0 0 0 0 2026/02/04 arXiv:2410.10589v1 1939058274

对表格等结构化数据进行视觉推理是现代视觉语言模型 (VLM) 的一项关键功能,但当前的基准在规模、多样性或推理深度方面仍然有限,尤其是在渲染表格图像时。为了解决这一差距,我们引入了 Visual-TableQA,这是一个大规模、开放域多模态数据集,专门用于评估和增强复杂表格数据的视觉推理。我们的生成流程是模块化、可扩展且完全自主的,涉及多个推理 LLM 在不同角色中进行协作:生成、验证和灵感。 Visual-TableQA 包含 2.5k 个结构丰富的 LaTeX 渲染表和 6k 个推理密集型 QA 对,所有这些都以低于 100 美元的成本生成。为了促进多样性和创造力,我们的管道通过跨模型提示(“灵感”)和 LLM 评审团过滤来执行多模型协作数据生成。较强的模型会产生较弱模型所阐述的布局和主题,将不同的推理模式和视觉结构共同提炼到数据集中。实证结果表明,在 Visual-TableQA 上微调的模型可以稳健地推广到外部基准,尽管数据集具有合成性质,但其性能优于多个专有模型。完整的管道和资源可通过此 https URL 公开获得 ...

0 0 0 0 2026/02/04 arXiv:2509.07966v1 leonulldo

我们引入 Reasoning Gym (RG),这是一个用于强化学习的推理环境库,具有可验证的奖励。它提供了超过 100 个数据生成器和验证器,涵盖代数、算术、计算、认知、几何、图论、逻辑和各种常见游戏等多个领域。其关键创新在于能够生成具有可调节复杂性的几乎无限的训练数据,这与之前大多数通常是固定的推理数据集不同。这种程序生成方法允许在不同的难度级别上进行连续评估。我们的实验结果证明了 RG 在推理模型的评估和强化学习方面的功效 ...

0 0 0 0 2026/02/04 arXiv:2505.24760v2 manlinghun

我们提出了Robomemory,这是一个以脑启发的多内存框架,用于物理体现系统中的终生学习,解决了现实世界中的关键挑战:连续学习,多模块记忆延迟,任务互相捕获和封闭环计划中的无限循环缓解。它以认知神经科学为基础,整合了四个核心模块:信息预处理器(丘脑状),终身体现的记忆系统(类似海马的记忆系统),闭环计划模块(前额叶loe叶),以及低级别的高级管理器(cerebellum light tim-light tim-light light light light Planne),以进行良好的学习和促进的学习。终身体现的内存系统是框架的中心,通过跨空间,时间,情节和语义suppoles的并行更新/检索来减轻复杂内存框架中的推理速度问题 ...

0 0 0 0 2026/02/04 arXiv:2508.01415v5 aeon

提示代理最近成为自动提示优化的有前途的范例,将细化框架作为结构化提示空间上的顺序决策问题。虽然这种公式可以使用先进的规划算法,但这些方法通常假设可以访问监督奖励信号,而这在实际场景中通常是不可用的。在这项工作中,我们提出了 UPA,一种无监督提示代理,可以在不依赖监督反馈的情况下实现结构化搜索和选择。具体来说,在搜索过程中,UPA 在大型语言模型 (LLM) 的细粒度和顺序不变的成对比较的指导下,迭代地构建一个不断发展的树结构来导航提示空间。至关重要的是,由于这些局部比较本身并不能产生一致的全球规模,因此我们将系统的即时探索与最终选择脱钩,引入了基于 Bradley-Terry-Luce (BTL) 模型的两阶段框架。该框架首先执行局部比较的路径贝叶斯聚合,以过滤不确定性下的候选者,然后进行全局锦标赛式比较,以推断潜在提示质量并识别最佳提示。跨多个任务的实验表明,UPA 始终优于现有的提示优化方法,这表明即使在完全无人监督的环境中,代理式优化仍然非常有效 ...

0 0 0 0 2026/02/04 arXiv:2601.23273v1 18767167563

顺序推荐是一项从历史用户项目交互数据中捕获隐藏的用户偏好并为用户推荐下一个项目的任务。通过利用基于分类的学习方法,该领域已经取得了重大进展。受最近 NLP 中“预训练、提示和预测”范式的启发,我们将顺序推荐视为序列到序列生成任务,并提出了一种名为生成推荐(GenRec)的新模型。与学习显式用户和项目表示的基于分类的模型不同,GenRec 利用 Transformer 的序列建模功能,并采用屏蔽项目预测目标来有效学习隐藏的双向序列模式。与现有的生成顺序推荐模型不同,GenRec 不依赖于手动设计的硬提示。 GenRec 的输入是文本用户项目序列,输出是排名最高的下一个项目。此外,GenRec 是轻量级的,只需几个小时即可在资源匮乏的环境中进行有效训练,使其高度适用于现实场景,并有助于使顺序推荐领域的大型语言模型民主化。我们广泛的实验表明,GenRec 可以推广到各种公共现实世界数据集并取得最先进的结果。我们的实验还验证了所提出的屏蔽项目预测目标的有效性,该目标大大提高了模型性能 ...

0 0 0 0 2026/02/04 arXiv:2407.21191v2 QLMX

策略梯度方法忽略了调整环境变量的潜在价值:在物理设置中由环境随机确定的不可观察的状态特征,但在模拟器中是可控的。如果环境变量对转型动态有很大影响,这可能会导致学习缓慢或收敛到次优政策。在本文中,我们提出了指纹策略优化(FPO),它找到了在环境变量分布中期望最优的策略。其中心思想是使用贝叶斯优化(BO)主动选择环境变量的分布,使策略梯度方法的每次迭代产生的改进最大化。为了使这个 BO 实用,我们提供了当前策略的两个易于计算的低维指纹。我们的实验表明,FPO 可以有效地学习对重大罕见事件具有鲁棒性的策略,这些事件在随机抽样下不太可能观察到,但却是学习良好策略的关键 ...

0 0 0 0 2026/02/04 arXiv:1805.10662v3 admin1