视觉和语言导航 (VLN) 需要具体代理根据自然语言指令在复杂的 3D 环境中进行导航。大语言模型 (LLM) 的最新进展使得语言驱动的导航成为可能,并提高了可解释性。然而,大多数基于 LLM 的智能体仍然依赖于单次动作决策,其中模型必须从嘈杂的、文本化的多视角观察中选择一个选项。由于局部不匹配和不完善的中间推理,此类决策很容易偏离正确路径,导致错误累积并在未见的环境中降低可靠性。在本文中,我们提出了 DV-VLN,这是一种遵循“生成然后验证”范式的新 VLN 框架。 DV-VLN 首先对开源 LLaMA-2 主干执行参数高效的域内适应,以生成结构化的导航思想链,然后使用两个互补通道验证候选操作:真假验证 (TFV) 和屏蔽实体验证 (MEV)。 DV-VLN 通过聚合多个样本的验证成功来选择操作,生成可解释的分数以进行重新排名。 R2R、RxR(英语子集)和 REVERIE 上的实验表明,DV-VLN 持续改进了直接预测和仅采样基线,在仅语言 VLN 代理中实现了有竞争力的性能,并且与几个跨模式相比,该 http URL 可以在 https URL 上获得有希望的结果 ...
思维链推理推动大型语言模型从文本思维延伸到图像视频思维。然而,不同的模式仍然有明显的局限性:静态图像难以表示时间结构,而视频则引入了大量的冗余和计算成本。在这项工作中,我们提出了用漫画思考,这是一种视觉推理范式,使用漫画作为位于图像和视频之间的高信息密度媒介。漫画保留了时间结构、嵌入文本和叙事连贯性,同时需要显着降低推理成本。我们系统地研究了两种基于漫画的推理路径,并在一系列推理任务和长上下文理解任务上对其进行了评估。实验结果表明,在多步骤时间和因果推理任务上,漫画思维优于图像思维,同时比视频思维更高效。进一步的分析表明,不同的漫画叙事结构和风格持续影响跨任务的表现,这表明漫画可以作为改善多模态推理的有效中间视觉表示 ...
尽管多模态大语言模型(MLLM)最近在不同的理解任务上取得了进展,但这些模型很难解决需要广泛的多步骤推理的问题。这主要是由于长上下文生成过程中视觉信息的逐渐稀释,这阻碍了他们充分利用测试时间缩放的能力。为了解决这个问题,我们引入了视觉对齐潜在推理(VaLR),这是一个简单而有效的推理框架,它在每个思想链推理步骤之前动态生成视觉对齐潜在标记,指导模型根据潜在空间中的感知线索进行推理。具体来说,VaLR 经过训练,通过将 MLLM 的中间嵌入与视觉编码器的中间嵌入对齐来在推理过程中保留视觉知识。实证结果表明,VaLR 在需要长上下文理解或精确视觉感知的各种基准测试中始终优于现有方法,同时表现出先前 MLLM 中未观察到的测试时间缩放行为。特别是,VaLR 在 VSI-Bench 上将性能显着提高,从 33.0% 提高到 52.9%,比 Qwen2.5-VL 提高了 19.9%p ...
视觉世界中的任何实体都可以根据共享特征进行分层分组,并映射到细粒度的子类别。虽然多模态大型语言模型 (MLLM) 在粗粒度视觉任务上取得了出色的性能,但它们经常在细粒度视觉识别 (FGVR) 方面遇到困难。将通用 MLLM 适应 FGVR 通常需要大量带注释的数据,而获取这些数据的成本很高,与专用于判别任务的对比 CLIP 模型相比,存在很大的性能差距。此外,MLLM 往往会过度拟合可见的子类别,而对于不可见的子类别则泛化能力较差。为了应对这些挑战,我们提出了Fine-R1,一种通过R1式训练框架为FGVR量身定制的MLLM:(1)思想链监督微调,我们构建了一个高质量的FGVR CoT数据集,其基本原理是“视觉分析、候选子类别、比较和预测”,将模型转变为强大的开放世界分类器; (2)三元组增强策略优化,其中类内增强混合来自同一类别内的锚定图像和正图像的轨迹,以提高对类内方差的鲁棒性,而类间增强则最大化基于子类别的图像的响应区别,以增强判别能力。只需 4 次训练,Fine-R1 在识别可见和未见的子类别方面就优于现有的通用 MLLM、推理 MLLM,甚至对比 CLIP 模型,这在知识密集型领域的工作中显示出了前景,在这些领域中,收集所有子类别的专家注释是很困难的。代码可从此 https URL 获取 ...
推荐系统在现代电子商务平台中起着至关重要的作用。由于用户和物品之间缺乏历史交互,冷启动推荐是一个具有挑战性的问题。为了缓解冷启动问题,大多数现有方法引入内容和上下文信息作为辅助信息。然而,这些方法假设推荐的商品随着时间的推移表现稳定,而在典型的电子商务场景中,商品在其整个生命周期中通常具有非常不同的表现。在这种情况下,从项目角度考虑长期回报将是有益的,而这在传统方法中通常被忽略。强化学习(RL)自然适合这样的长期优化问题,其中推荐器可以识别高潜力的项目,主动分配更多的用户印象以促进其增长,从而提高多周期累积收益。受这个想法的启发,我们将该过程建模为部分可观察和可控制的马尔可夫决策过程(POC-MDP),并提出了一个演员批评家强化学习框架(RL-LTV),将项目生命周期值(LTV)纳入推荐中。在 RL-LTV 中,批评者研究商品的历史轨迹并预测新鲜商品的未来生命周期价值,而行动者提出基于分数的策略,最大化未来生命周期价值的期望。然后,演员建议的分数与双排名框架中的经典排名分数相结合,因此推荐与 LTV 考虑因素相平衡。在最大的电子商务平台之一上,我们的方法优于强大的实时基线,冷启动商品的 IPV 和 GMV 相对提高了 8.67% 和 18.03% ...
从单眼视频中重建动态手部物体交互对于灵巧的操作数据收集以及为机器人和 VR 创建逼真的数字孪生至关重要。然而,当前的方法面临两个令人望而却步的障碍:(1)对神经渲染的依赖通常会在严重遮挡下产生支离破碎的、无法模拟的几何形状,(2)对脆弱的运动结构(SfM)初始化的依赖会导致野外镜头频繁失败。为了克服这些限制,我们引入了 AGILE,这是一个强大的框架,它将交互学习的范式从重构转变为代理生成。首先,我们采用代理管道,其中视觉语言模型 (VLM) 引导生成模型合成具有高保真纹理的完整、无懈可击的对象网格,且与视频遮挡无关。其次,我们完全绕过脆弱的 SfM,提出了一种强大的锚定和跟踪策略。我们使用基础模型在单个交互开始帧初始化对象姿势,并利用我们生成的资产和视频观察之间的强烈视觉相似性来临时传播它。最后,接触感知优化集成了语义、几何和交互稳定性约束,以增强物理合理性。对 HO3D、DexYCB 和野外视频进行的大量实验表明,AGILE 在全局几何精度方面优于基线,同时在现有技术经常崩溃的挑战性序列上表现出卓越的鲁棒性。通过优先考虑物理有效性,我们的方法可以生成模拟就绪的资产,并通过机器人应用程序的真实到模拟重定向进行验证 ...
自主图形用户界面 (GUI) 代理依赖于准确的 GUI 基础,将语言指令映射到屏幕上的坐标,以执行用户命令。然而,当前的模型,无论是通过监督微调(SFT)还是强化微调(RFT)进行训练,都缺乏对其能力边界的自我意识,导致过度自信和不可靠的预测。我们首先系统地评估一般和 GUI 特定模型中的概率和语言置信度,揭示置信度和实际准确性之间的不一致,这在动态 GUI 自动化任务中尤其重要,其中单个错误可能会导致任务失败。为了解决这个问题,我们提出了 HyperClick,这是一种新颖的框架,可以通过不确定性校准来增强可靠的 GUI 基础。 HyperClick 引入了双重奖励机制,将正确操作的二元奖励与基于截断高斯的空间置信度模型(使用 Brier 分数进行校准)相结合。这种方法共同优化了接地准确性和信心可靠性,培养了内省的自我批评。对七个挑战基准的大量实验表明,HyperClick 实现了最先进的性能,同时提供了经过良好校准的置信度。通过启用明确的信心校准和内省的自我批评,HyperClick 减少了过度自信并支持更可靠的 GUI 自动化 ...
生成模型通常独立地对输出进行采样,最近的推理时间指导和缩放算法专注于提高单个样本的质量。然而,在现实应用中,每次提示时,用户通常会看到一组多个图像(例如 4-8 个),其中独立采样往往会导致冗余结果,限制用户选择并阻碍想法探索。在这项工作中,我们引入了一种可扩展的组推理方法,该方法可以提高一组样本的多样性和质量。我们将组推理表述为二次整数分配问题:候选输出被建模为图节点,并选择一个子集来优化样本质量(一元项),同时最大化组多样性(二元项)。为了大幅提高运行时效率,我们使用中间预测逐步修剪候选集,从而使我们的方法能够扩展到大型候选集。大量实验表明,与独立采样基线和最近的推理算法相比,我们的方法显着提高了群体多样性和质量。我们的框架涵盖了广泛的任务,包括文本到图像、图像到图像、图像提示和视频生成,使生成模型能够将多个输出视为有凝聚力的组而不是独立的样本 ...
多模态大语言模型(MLLM)的快速发展将其能力从图像理解扩展到了视频理解。然而,大多数 MLLM 主要关注离线视频理解,需要在进行任何查询之前对所有视频帧进行大量处理。与人类实时观看、聆听、思考和响应流输入的能力相比,这存在显着差距,凸显了当前 MLLM 的局限性。在本文中,我们介绍了 StreamingBench,这是第一个旨在评估 MLLM 的流视频理解能力的综合基准测试。 StreamingBench 评估流媒体视频理解的三个核心方面:(1) 实时视觉理解,(2) 全源理解,以及 (3) 上下文理解。该基准测试由 18 项任务组成,包含 900 个视频和 4,500 个人工策划的 QA 对。每个视频都有在不同时间点提出的五个问题,以模拟连续流场景。我们在 StreamingBench 上使用 13 个开源和专有 MLLM 进行实验,发现即使是最先进的专有 MLLM(如 Gemini 1.5 Pro 和 GPT-4o)的性能也明显低于人类水平的流媒体视频理解能力。我们希望我们的工作能够促进 MLLM 的进一步进步,使它们能够在更现实的场景中实现人类水平的视频理解和交互 ...
金融市场充满噪音且不稳定,使得阿尔法挖矿对回测结果和突然的市场机制变化中的噪音高度敏感。虽然最近的代理框架改进了阿尔法挖掘自动化,但它们通常缺乏可控的多轮搜索和对经过验证的经验的可靠重用。为了应对这些挑战,我们提出了QuantaAlpha,这是一种进化阿尔法挖掘框架,它将每个端到端挖掘运行视为一个轨迹,并通过轨迹级突变和交叉操作来改进因子。 QuantaAlpha 定位每个轨迹中的次优步骤以进行有针对性的修订,并重新组合互补的高奖励部分以重用有效模式,从而实现跨挖掘迭代的结构化探索和细化。在因子生成过程中,QuantaAlpha 强制假设、因子表达和可执行代码之间的语义一致性,同时限制生成因子的复杂性和冗余以减轻拥挤。对中国证券指数 300(CSI 300)的广泛实验表明,与强大的基线模型和先前的代理系统相比,具有持续的收益。当使用 GPT-5.2 时,QuantaAlpha 的信息系数 (IC) 为 0.1501,年化回报率 (ARR) 为 27.75%,最大回撤 (MDD) 为 7.98%。此外,沪深300挖掘的因子有效转移至中证500指数(沪深500)和标准普尔500指数(标普500),四年累计超额收益分别达到160%和137%,显示广达在市场分布变化下具有较强的稳健性 ...