虽然人形运动的最新进展已经实现了在不同地形上的稳定行走,但捕捉高度动态的人体运动的敏捷性和适应性仍然是一个开放的挑战。特别是复杂环境下的敏捷跑酷,不仅需要低级的鲁棒性,还需要类人的动作表现力、长视界技能构成以及感知驱动的决策。在本文中,我们提出了感知人形跑酷(PHP),这是一个模块化框架,使人形机器人能够在具有挑战性的障碍路线上自主执行基于视觉的长视野跑酷。我们的方法首先利用运动匹配,将其表述为特征空间中的最近邻搜索,将重新定位的原子人类技能组合成长视野运动轨迹。该框架能够实现复杂技能链的灵活组合和平滑过渡,同时保留动态人体动作的优雅和流畅性。接下来,我们结合使用 DAgger 和 RL,为这些组合动作训练运动跟踪强化学习 (RL) 专家策略,并将它们提炼成单一的基于深度的多技能学生策略。至关重要的是,感知和技能组合的结合可以实现自主的、情境感知的决策:仅使用机载深度传感和离散的 2D 速度命令,机器人就可以选择并执行是否跨过、爬上、跳跃或滚下不同几何形状和高度的障碍物。我们在 Unitree G1 人形机器人上进行了广泛的真实世界实验来验证我们的框架,展示了高度动态的跑酷技能,例如攀爬高达 1.25m(机器人高度的 96%)的高障碍,以及对实时障碍物扰动进行闭环适应的长视野多障碍物穿越 ...

0 0 0 0 2026/02/25 arXiv:2602.15827v1 yukun

生成推荐 (GR) 已成为一种变革范式,它将传统的级联排序系统重新表述为序列到项目的生成任务,并通过使用离散语义 ID (SID) 来促进。然而,当前的 SID 并不理想,因为索引目标(第 1 阶段)与实际推荐目标(第 2 阶段)不一致。由于这些标识符保持静态(第 2 阶段),因此骨干模型缺乏使它们适应用户交互不断变化的复杂性的灵活性。此外,将分层 SID 扁平化为 Token 序列的流行策略会导致序列长度膨胀,从而导致过高的计算开销和推理延迟。为了应对这些挑战,我们提出了 IntRR,这是一种集成了目标一致的 SID 重新分配和结构长度缩减的新颖框架。通过利用特定于项目的唯一 ID (UID) 作为协作锚点,此方法可以跨分层码本层动态地重新分配语义权重。同时,IntRR 递归地处理 SID 层次结构,从而无需展平序列。这确保了每件商品的固定成本为一个 Token 。对基准数据集的大量实验表明,IntRR 比代表性生成基线有了显着的改进,在推荐准确性和效率方面实现了卓越的性能 ...

0 0 0 0 2026/02/25 arXiv:2602.20704v1 090806wzx

在这项工作中,我们系统地回顾了语言模型代码处理的最新进展,涵盖 50 多个模型、30 多个评估任务和 500 多个相关工作。我们将代码处理模型分解为以 GPT 系列为代表的通用语言模型和专门针对代码进行预训练的专用模型,通常具有定制的目标。我们讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变,这与 NLP 所采取的过程完全相同。我们还讨论了特定于代码的功能,例如 AST、CFG 和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在的未来方向。我们在 github 存储库(此 https URL)上保持调查开放和更新 ...

0 0 0 0 2026/02/25 arXiv:2311.07989v7 九九

强化学习(RL)提高了大型语言模型(LLM)的推理能力,但最先进的方法仍然无法解决许多训练问题。在难题上,同策略强化学习很少探索哪怕是一次正确的部署,产生零奖励,也没有推动改进的学习信号。我们发现,解决经典 RL 探索问题的自然解决方案(例如熵奖励、更宽松的重要性比裁剪或 pass@k 目标的直接优化)并不能解决此问题,并且常常会在不提高可解性的情况下破坏优化的稳定性。一个自然的选择是利用更简单的问题的转移。然而,我们表明,由于射线干扰,在 RL 训练期间混合简单和困难的问题会适得其反,其中优化侧重于已经可以解决的问题,从而主动抑制更困难的问题的进展。为了应对这一挑战,我们引入了特权在策略探索(POPE),这种方法利用人类或其他预言机解决方案作为特权信息来指导对难题的探索,这与使用预言机解决方案作为训练目标的方法(例如,离策略强化学习方法或 SFT 热启动)不同。 POPE 通过预言机解决方案的前缀来增强难题,使 RL 能够在引导部署期间获得非零奖励。至关重要的是,通过遵循指令和推理之间的协同作用,由此产生的行为又回到了最初的、不受指导的问题。根据经验,POPE 扩展了可解决的问题集,并显着提高了具有挑战性的推理基准的性能 ...

0 0 0 0 2026/02/25 arXiv:2601.18779v1 yiyili

自对弈通过迭代的挑战者-求解器循环引导 LLM 推理:挑战者经过训练以生成针对求解器能力的问题,求解器根据生成的数据进行优化以扩展其推理技能。然而,像 R-Zero 这样的现有框架经常表现出非持续的改进,随着自我对弈的继续,早期的收益会下降。我们确定了一种关键的故障模式,即多样性错觉,其中求解器的训练信号看起来多种多样,但却崩溃为重复出现的潜在模式。它表现为(1)局部多样性错觉,其中多样性仅在批次内强制执行,从而引发交叉迭代模式循环; (2) 表面多样性错觉,问题表面上有所不同,但需要几乎相同的推理技能。为了缓解这些问题,我们提出了具有两项一致创新的 R-Diverse:记忆增强惩罚 (MAP),它使用持久性记忆库来阻止迭代之间的循环;以及技能感知测量 (SAM),它通过所运用的推理技能而不是问题的表面变化来评估多样性。在 10 个数学和一般推理基准测试中,R-Diverse 在更多迭代中保持了增益,并且始终优于之前的自我对弈方法。代码可从此 https URL 获取 ...

0 0 0 0 2026/02/25 arXiv:2602.13103v2 yiyili

利用大型语言模型 (LLM) 的推理能力来构建推荐系统受到两个基本挑战的阻碍。首先,当前的方法缺乏一种自动的、数据驱动的有效推理模式发现机制,而是依赖于脆弱的手动模板或不稳定的零样本提示。其次,他们采用结构崩溃集成:直接提示会产生过高的在线推理成本,而特征提取将推理链崩溃为单个向量,丢弃逐步逻辑。为了应对这些挑战,我们提出了 SCoTER(增强推荐的结构化思想链传输),这是一个统一的框架,将模式发现和结构感知传输视为联合优化的问题。具体来说,SCoTER 通过两个协同组件来实现这一点:用于自动模式发现的生成-验证-挖掘 (GVM) 管道和将逐步逻辑转移到高效模型的结构保留集成架构。根据经验,四个基准的实验证明了不同骨干网的持续改进。此外,在腾讯广告平台的生产部署中,SCoTER 实现了商品总价值 (GMV) 2.14% 的提升,同时消除了在线 LLM 推理成本。总体而言,SCoTER 提出了一个实用且统一的框架,用于将结构化 LLM 推理集成到推荐系统中,并通过离线基准和在线生产环境的持续改进进行验证 ...

0 0 0 0 2026/02/25 arXiv:2511.19514v5 lyq1

大型语言模型(LLM)使自动启发式发现(AHD)取得了快速进展,但大多数现有方法主要受到针对固定实例分布的静态评估的限制,导致分布变化下潜在的过度拟合和泛化不良。我们提出了算法空间响应预言机(ASRO),这是一种博弈论框架,它将启发式发现重新构建为求解器和实例生成器之间的程序级协同进化。 ASRO 将他们的交互建模为两人零和游戏,维持双方不断增长的策略池,并通过基于 LLM 的最佳响应预言机针对混合对手元策略迭代扩展它们,从而用自适应、自我生成的课程取代静态评估。在多个组合优化领域中,ASRO 始终优于基于相同程序搜索机制构建的静态训练 AHD 基线,从而在不同和分布外实例上实现了显着提高的泛化性和鲁棒性 ...

0 0 0 0 2026/02/25 arXiv:2601.22896v2 yiyili

营销优化对于提高在线互联网平台的用户参与度起着重要作用。现有的研究通常将这个问题表述为预算分配问题,并利用两个完全解耦的阶段,即机器学习(ML)和运筹学(OR)来解决它。然而,ML中的学习目标没有考虑OR中的下游优化任务,这导致ML中的预测精度可能与决策质量不呈正相关。决策聚焦学习(DFL)将 ML 和 OR 集成到端到端框架中,以下游任务的目标作为决策损失函数,并保证 ML 和 OR 优化方向的一致性。然而,由于存在多种技术挑战,在营销中部署 DFL 并非易事。首先,营销中的预算分配问题是一个0-1整数随机规划问题,预算是不确定的,并且在现实环境中波动很大,这超出了DFL中的一般问题背景。其次,营销中的反事实导致决策损失无法直接计算,并且永远无法获得最优解,这两者都使DFL中常见的梯度估计方法失效。第三,DFL模型训练过程中频繁调用OR求解器来计算决策损失,这会产生巨大的计算成本,并且无法支持大规模的训练数据。在本文中,我们提出了一种用于直接反事实营销优化的以决策为中心的因果学习框架(DFCL),克服了上述技术挑战。离线实验和在线 A/B 测试都证明了 DFCL 相对于最先进方法的有效性。目前,DFCL已在全球最大的在线外卖平台之一美团的多个营销场景中部署 ...

0 1 0 0 2026/02/25 arXiv:2407.13664v1 weiwoduzunfd

深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...

0 0 0 0 2026/02/25 arXiv:2405.14093v7 chenlei

推荐系统是现代电子商务中必不可少的工具,通过建议相关产品来促进个性化用户体验。生成模型的最新进展证明了增强推荐系统的潜力。但是,这些模型通常在优化检索任务时表现出局限性,这主要是由于它们依赖自回归产生机制。常规方法引入了限制有效检索的顺序依赖性,因为它们本质上不适合在单个请求会话中生成无位置约束的多个项目 ...

0 0 0 0 2026/02/25 arXiv:2508.11977v2 15927322958