推荐系统 (RS) 在当今的在线服务中发挥着普遍作用,但其闭环性质限制了它们获取开放世界知识的能力。最近,大型语言模型(LLM)在弥合这一差距方面表现出了希望。然而,之前直接实现LLM作为推荐器的尝试无法满足工业RS的要求,特别是在在线推理延迟和离线资源效率方面。因此,我们建议 REKI 从 LLM 那里获取关于用户和项目的两种类型的外部知识。具体来说,我们引入因式分解提示来引出关于用户偏好和项目的准确知识推理。我们开发针对不同规模场景的个体知识抽取和集体知识抽取,有效减少线下资源消耗。随后,生成的知识通过混合专家集成网络进行有效转换并浓缩为增强向量,确保兼容性。然后,获得的向量可用于增强任何传统的推荐模型。我们还通过预处理和预存储 LLM 的知识来确保有效的推理。实验表明,REKI 的性能优于最先进的基线,并且与许多推荐算法和任务兼容。目前,REKI已部署到华为新闻和音乐推荐平台,在线A/B测试中分别获得了7%和1.99%的提升 ...
扩散大语言模型 (DLLM) 已成为自回归 (AR) 解码的替代方案,具有吸引人的效率和建模特性,但它们对代理多步骤决策的影响仍未得到充分探索。我们提出一个具体的问题:当生成范式发生变化但代理框架和监督保持不变时,扩散主干是否会导致系统性不同的规划和工具使用行为,这些差异是否会转化为端到端的效率增益?我们在受控环境中研究这一问题,方法是在同一代理工作流程 (DeepDiver) 中实例化 DLLM 和 AR 主干,并对相同的轨迹数据执行匹配的面向代理的微调,产生扩散支持的 DLLM 代理和直接可比较的 AR 代理。通过基准测试和案例研究,我们发现,在相当的精度下,DLLM 代理的端到端速度平均比 AR 代理快 30% 以上,在某些情况下加速超过 8 倍。以正确完成任务为条件,DLLM 代理还需要更少的交互轮次和工具调用,这与更高的规划器命中率一致,更早地收敛到正确的操作路径,并且回溯更少。我们进一步确定了在使用工具的代理中部署扩散主干的两个实际考虑因素。首先,幼稚的 DLLM 策略更容易出现结构化工具调用失败,因此需要更强大的特定于工具调用的训练来发出有效的模式和参数。其次,对于交错上下文和动作跨度的多轮输入,扩散式跨度损坏需要对齐的注意力掩蔽,以避免虚假的上下文动作信息流;如果没有这种对齐,性能就会下降。最后,我们分析了整个工作流程阶段的注意力动态,并观察特定范式的协调模式,表明扩散支持的代理中有更强的全局规划信号 ...
我们提出了一种简单有效的重新排序方法,用于改进开放式问答中的段落检索。重新排序器使用零样本问题生成模型对检索到的段落进行重新评分,该模型使用预先训练的语言模型来计算以检索到的段落为条件的输入问题的概率。这种方法可以应用于任何检索方法(例如基于神经或基于关键字的),不需要任何特定于领域或任务的训练(因此预计可以更好地泛化到数据分布变化),并在查询和段落之间提供丰富的交叉注意力(即它必须解释问题中的每个标记)。当在多个开放域检索数据集上进行评估时,我们的重新排序器将强无监督检索模型的绝对值提高了 6%-18%,将强监督模型的前 20 篇文章检索准确度提高了高达 12%。我们还通过简单地将新的重新排序器添加到现有模型中而无需进一步更改,就获得了完整开放域问答的最新结果 ...
开发与人类金融分析师和交易员同等的专业、结构化推理仍然是金融人工智能的一个核心挑战,因为市场需要可解释性和信任。传统的时间序列模型缺乏可解释性,而 LLM 在将自然语言分析转化为规范的、可执行的交易方面面临着挑战。尽管推理 LLM 在逐步规划和验证方面取得了进步,但它们在风险敏感的财务决策中的应用尚未得到充分探索。我们提出 Trading-R1,这是一种财务意识模型,它结合了综合论文写作的战略思维和规划、基于事实的分析和波动性调整决策。 Trading-R1 通过监督微调和强化学习以及三阶段由浅入深的课程,将推理与交易原则结合起来。训练使用 Tauric-TR1-DB,这是一个跨越 18 个月、14 种股票和 5 个异构金融数据源的 10 万样本语料库。通过对六种主要股票和 ETF 进行评估,与开源和专有的指令跟踪模型以及推理模型相比,Trading-R1 表现出更高的风险调整回报和更低的回撤。该系统生成结构化、基于证据的投资论文,支持严格且可解释的交易决策。 Trading-R1 终端将在此 https URL 发布 ...
我们建议将 p(y|x) 的标准判别分类器重新解释为联合分布 p(x,y) 的基于能量的模型。在此设置中,可以轻松计算标准类别概率以及 p(x) 和 p(x|y) 的非标准化值。在此框架内,可以使用标准的判别架构,并且还可以在未标记的数据上训练模型。我们证明,基于能量的联合分布训练可以提高校准、鲁棒性和分布外检测,同时还使我们的模型能够生成与最新 GAN 方法质量相媲美的样本。我们改进了最近提出的用于扩大基于能量的模型训练的技术,并提出了一种与标准分类训练相比几乎不增加开销的方法。我们的方法是第一个在一个混合模型中实现可与最先进的生成学习和判别学习相媲美的性能的方法 ...
关于生成推荐 (GR) 模型为何优于传统的基于项目 ID 的模型,一个广泛持有的假设是它们具有更好的泛化能力。然而,除了总体性能的表面比较之外,几乎没有系统的方法来验证这一假设。为了解决这一差距,我们根据正确预测所需的特定功能对每个数据实例进行分类:记忆(重用训练期间观察到的项目转换模式)或泛化(组合已知模式来预测未见过的项目转换)。大量实验表明,GR 模型在需要泛化的实例上表现更好,而基于项目 ID 的模型在记忆更重要时表现更好。为了解释这种差异,我们将分析从项目级别转移到 Token 级别,并表明对于 GR 模型,看似项目级别的泛化通常会简化为 Token 级别的记忆。最后,我们证明这两种范式是互补的。我们提出了一个简单的记忆感知指标,可以在每个实例的基础上自适应地组合它们,从而提高整体推荐性能 ...
为实体智能体配备推理任务、预见物理结果和生成精确动作的能力对于通用操纵至关重要。虽然最近的视觉-语言-动作(VLA)模型利用了预先训练的基础模型,但它们通常单独关注语言规划或视觉预测。这些方法很少同时集成这两种功能来指导动作生成,从而导致在复杂的长视野操作任务中表现不佳。为了弥补这一差距,我们提出了 BagelVLA,这是一种将语言规划、视觉预测和动作生成集成在单一框架内的统一模型。 BagelVLA 从预训练的统一理解和生成模型初始化,经过训练可将文本推理和视觉预测直接插入到动作执行循环中。为了有效地耦合这些模式,我们引入了残差流引导(RFG),它从当前观察中初始化,并利用单步去噪来提取预测视觉特征,以最小的延迟指导动作生成。大量实验表明,BagelVLA 在多个模拟和现实世界基准上明显优于现有基准,特别是在需要多阶段推理的任务中 ...
极限腿部跑酷需要在高度动态的条件下进行快速地形评估和精确的足部放置。虽然最近的基于学习的系统实现了令人印象深刻的敏捷性,但它们从根本上仍然很容易受到感知退化的影响,即使是短暂的视觉噪音或延迟也可能导致灾难性的失败。为了克服这个问题,我们提出了鲁棒极限敏捷学习(REAL),这是一种在感官腐败下可靠跑酷的端到端框架。 REAL 并不依赖于完全清晰的感知,而是将视觉、本体感受历史和时间记忆紧密结合在一起。我们将跨模式教师策略提炼为可部署的学生,配备 FiLM 调制的 Mamba 主干,以主动过滤视觉噪声并主动建立短期地形记忆。此外,物理引导的贝叶斯状态估计器在高冲击力机动过程中增强了刚体一致性。 REAL 在 Unitree Go2 四足动物上进行了验证,即使存在 1 米视觉盲区,也能成功穿越极端障碍,同时严格满足实时控制约束,推理时间有限,为 13.1 毫秒 ...
我们梦想未来所有领域的点云都可以聚集在一起,形成一个使所有人受益的单一模型。为了实现这一目标,我们推出了 Utonia,这是跨不同领域训练单一自监督点变换器编码器的第一步,涵盖遥感、室外 LiDAR、室内 RGB-D 序列、以对象为中心的 CAD 模型以及从纯 RGB 视频提取的点云。尽管它们具有不同的传感几何形状、密度和先验,但 Utonia 学习了跨域传输的一致表示空间。这种统一提高了感知能力,同时揭示了只有在联合训练领域时才会出现的有趣的紧急行为。除了感知之外,我们观察到 Utonia 表示还可以有利于体现和多模态推理:根据 Utonia 特征调节视觉语言动作策略可以改善机器人操作,并将它们集成到视觉语言模型中可以产生空间推理的收益。我们希望 Utonia 能够成为稀疏 3D 数据基础模型的一步,并支持 AR/VR、机器人和自动驾驶等下游应用 ...
点云补全对于机器人感知、物体重建以及支持抓取规划、避障和操纵等下游任务至关重要。然而,自遮挡和传感器限制引起的不完整几何形状会显着降低下游推理和交互能力。为了应对这些挑战,我们提出了 HGACNet,这是一种新颖的框架,通过分层编码 3D 几何特征并将其与来自单视图 RGB 图像的图像引导先验融合来重建单个对象的完整点云。我们方法的核心是,分层图注意力(HGA)编码器通过基于图注意力的下采样自适应地选择关键局部点,并逐步细化分层几何特征,以更好地捕获结构连续性和空间关系。为了加强跨模态交互,我们进一步设计了多尺度跨模态融合(MSCF)模块,该模块在分层几何特征和结构化视觉表示之间执行基于注意的特征对齐,从而实现细粒度语义指导的完成。此外,我们提出了对比损失(C-Loss)来明确地对齐跨模态的特征分布,提高模态差异下的完成保真度。最后,在 ShapeNet-ViPC 基准和 YCB-Complete 数据集上进行的大量实验证实了 HGACNet 的有效性,展示了最先进的性能以及在现实世界机器人操作任务中的强大适用性 ...