GUI 代理的开发可能会彻底改变下一代人机交互。受这一愿景的推动,我们推出了 MAI-UI,这是一系列涵盖各种尺寸的基础 GUI 代理,包括 2B、8B、32B 和 235B-A22B 变体。我们确定了实际部署的四个关键挑战:缺乏本机代理与用户交互、仅 UI 操作的限制、缺乏实用的部署架构以及动态环境中的脆弱性。 MAI-UI 通过统一的方法解决了这些问题:自我演化的数据管道,可扩展导航数据以包括用户交互和 MCP 工具调用,本机设备-云协作系统按任务状态路由执行,以及具有高级优化功能的在线 RL 框架,可扩展并行环境和上下文长度。 MAI-UI 在 GUI 基础和移动导航方面建立了新的最先进技术。在接地基准测试中,它在 ScreenSpot-Pro 上达到 73.5%,在 MMBench GUI L2 上达到 91.3%,在 OSWorld-G 上达到 70.9%,在 UI-Vision 上达到 49.2%,超过了 Gemini-3-Pro 和 ScreenSpot-Pro 上的 Seed1.8。在移动GUI导航方面,它在AndroidWorld上刷新了76.7%的SOTA,超越了UI-Tars-2、Gemini-2.5-Pro和Seed1.8。在 MobileWorld 上,MAI-UI 获得了 41.7% 的成功率,显着优于端到端 GUI 模型,并且与基于 Gemini-3-Pro 的代理框架具有竞争力。我们的在线 RL 实验显示,将并行环境从 32 个扩展到 512 个(+5.2 点)以及将环境步骤预算从 15 增加到 50 个(+4.3 点),可以获得显着收益。最后,原生端云协同系统将端端性能提升33%,云模型调用减少40%以上,并保护用户隐私 ...
幂先验是一种流行的工具,用于根据历史数据构建信息丰富的先验分布。该方法包括提高折扣因子的可能性,以控制从历史数据借用的信息量。通常会执行敏感性分析,报告贴现因子值范围的结果。然而,人们常常希望为其分配先验分布并与参数联合估计它,这反过来又需要计算归一化常数。在本文中,我们关注如何回收敏感性分析中的计算,以便从参数和折扣因子的联合后验中进行近似采样。我们首先展示归一化常数的一些重要属性,然后使用这些结果来激发二分型算法,以在固定的评估预算上计算它。我们给出了大量的插图,并讨论了归一化常数以封闭形式已知和不已知的情况。我们表明,所提出的方法产生的近似后验概率在可用时非常接近精确分布,并且在棘手的情况下还产生以更高概率覆盖数据生成参数的后验概率。我们的结果表明,正确包含归一化常数对于正确量化不确定性至关重要,并且所提出的方法是一种准确且易于实施的技术来包含这种归一化,适用于一大类模型。关键词:双难;诱导;史料;正常化;权力优先;敏感性分析 ...
我们提出了 TinyLLaVA 框架,它为设计和分析小规模大型多模态模型 (LMM) 提供了统一的视角。我们实证研究了不同视觉编码器、连接模块、语言模型、训练数据和训练配方的效果。我们广泛的实验表明,与较大的 LMM 相比,更好的数据质量与更好的训练方案相结合,较小的 LMM 可以始终达到同等的性能。在我们的框架下,我们训练了一系列小型 LMM。我们最好的模型 TinyLLaVA-3.1B 比现有的 7B 模型(例如 LLaVA-1.5 和 Qwen-VL)实现了更好的整体性能。我们希望我们的研究结果可以作为未来在数据扩展、训练设置和模型选择方面的研究的基准。我们的模型重量和代码将公开 ...
经过思考的推理已大大改善了各个领域的大语言模型(LLM)的性能。但是,这个推理过程仅限于文本空间,限制了其在视觉密集任务中的有效性。为了解决此限制,我们在像素空间中介绍了推理的概念 ...
人与物体交互(HOI)检测旨在定位人与物体对以及它们之间的交互。现有的方法在封闭世界的假设下运行,将任务视为一个小的、预定义的动词集的分类问题,该问题很难推广到野外看不见的或模糊的交互的长尾。虽然最近的多模态大语言模型(MLLM)拥有开放词汇理解所需的丰富的世界知识,但它们仍然与现有的 HOI 检测器脱钩,因为对其进行微调在计算上是令人望而却步的。为了解决这些限制,我们提出了 \GRASP-HO},一种新颖的生成推理和可引导感知框架,它将 HOI 检测从封闭集分类任务重新表述为开放词汇生成问题。为了弥合视觉和认知,我们首先提取混合交互表示,然后设计一个轻量级可学习认知引导管道(CSC)模块,将细粒度视觉证据注入冻结的 MLLM 中以进行有效推理。为了解决基于分类的 HOI 数据集和开放词汇生成模型之间的监督不匹配问题,我们引入了一种混合指导策略,将语言建模损失和辅助分类损失耦合起来,在不牺牲生成灵活性的情况下实现判别性基础。实验展示了最先进的闭集性能和强大的零样本泛化能力,实现了无缝连接开放世界 HOI 检测的判别感知和生成推理的统一范式 ...
本文解决了在通信限制下运行的异构多智能体系统中分散任务分配的挑战。我们引入了一种新颖的框架,它将图神经网络(GNN)与集中训练和分散执行(CTDE)范式集成在一起,并通过用于多智能体深度强化学习(MARL)的定制近端策略优化(PPO)算法进一步增强。我们的方法使无人机 (UAV) 和无人地面车辆 (UGV) 能够高效地动态分配任务,而无需在 3D 网格环境中进行中央协调。该框架最大限度地减少了总旅行时间,同时避免了任务分配中的冲突。对于成本计算和路由,我们采用基于预留的 A* 和 R* 路径规划器。实验结果表明,我们的方法实现了 92.5% 的无冲突成功率,与集中式匈牙利方法相比,性能差距仅为 7.49%,同时优于基于贪婪方法的启发式分散基线。此外,该框架还具有最多 20 个代理的可扩展性,分配处理时间为 2.8 秒,并且在响应动态生成的任务方面具有鲁棒性,强调了其在复杂的多代理场景中的实际应用程序的潜力 ...
当前对话中的情绪识别 (ERC) 研究遵循闭域假设。然而,心理学中的情绪分类尚未达成明确的共识,这对模型在识别现实应用中以前未见过的情绪时提出了挑战。为了弥补这一差距,我们首次引入了会话中看不见的情绪识别(UERC)任务,并提出了 ProEmoTrans,一个基于原型的可靠情绪转移框架。这种基于原型的方法显示出希望,但仍然面临关键挑战:首先,隐式表达使情感定义变得复杂,我们通过提出 LLM 增强的描述方法来解决这个问题。其次,长对话中的话语编码很困难,我们通过提出的无参数机制来解决这个问题,以实现高效编码和过度拟合预防。最后,情绪的马尔可夫流动性质很难转移,我们通过改进的注意维特比解码(AVD)方法来解决这个问题,将看到的情绪转换转移到看不见的情绪。对三个数据集的广泛实验表明,我们的方法可以为这一新领域的初步探索奠定坚实的基础 ...
随着 LLM 转向自主代理,深度研究已成为一个关键指标。然而,像 BrowseComp 这样的现有学术基准往往无法满足现实世界对开放式研究的需求,这需要在意图识别、长期决策和跨源验证方面具备强大的技能。为了解决这个问题,我们引入了 Step-DeepResearch,一种经济高效的端到端代理。我们提出了一种基于原子能力的数据合成策略,以加强规划和报告编写,并结合从代理中期训练到 SFT 和 RL 的渐进式训练路径。通过检查表式判断器的增强,这种方法显着提高了稳健性。此外,为了弥合中国领域的评估差距,我们针对现实的深入研究场景建立了 ADR-Bench。实验结果表明,Step-DeepResearch (32B) 在 Scale AI Research Rubrics 上得分为 61.4%。在 ADR-Bench 上,它的性能显着优于同类模型,可与 OpenAI 和 Gemini DeepResearch 等 SOTA 闭源模型相媲美。这些发现证明,精细化训练能够使中型模型以行业领先的成本效率实现专家级能力 ...
点击率(CTR)预测是推荐系统(RS)的核心任务之一。它预测每个用户-项目对的个性化点击概率。最近,研究人员发现,考虑用户行为序列,特别是长期用户行为序列,可以极大地提高CTR模型的性能。某电商网站报告显示,23%的用户在过去5个月内点击次数超过1000次。尽管有许多工作专注于对顺序用户行为进行建模,但由于现实世界系统中严格的推理时间限制,很少有工作可以处理长期用户行为序列。提出了两阶段方法来突破极限以获得更好的性能。在第一阶段,设计一个辅助任务来从长期用户行为序列中检索前 $k$ 相似项。在第二阶段,在候选项目和第一阶段选择的$k$项目之间进行经典的注意力机制。然而,在检索阶段和主要 CTR 任务之间存在信息差距。这种目标分歧会极大地降低长期用户序列的性能增益。在本文中,受Reformer的启发,我们提出了一种称为ETA(端到端目标注意)的局部敏感哈希(LSH)方法,该方法可以大大降低训练和推理成本,并使长期用户行为序列的端到端训练成为可能。离线和在线实验都证实了我们模型的有效性。我们将 ETA 部署到大型现实世界电子商务系统中,与两阶段长用户序列 CTR 模型相比,GMV(商品总价值)额外提高了 3.1% ...
场景文本编辑 (STE) 是修改图像中的文本内容,同时保留其视觉样式(例如字体、颜色和背景)的任务。虽然最近基于扩散的方法在视觉质量方面有所改进,但关键的局限性仍然存在:缺乏对低资源语言的支持、合成数据和真实数据之间的领域差距以及缺乏评估文本样式保留的适当指标。为了应对这些挑战,我们提出了 STELLAR(适用于低资源语言和真实世界数据的场景文本编辑器)。 STELLAR 通过语言自适应字形编码器和多阶段训练策略实现可靠的多语言编辑,该策略首先对合成数据进行预训练,然后对真实图像进行微调。我们还构建了一个新的数据集 STIPLAR(低资源语言和真实世界数据的场景文本图像对),用于训练和评估。此外,我们提出了文本外观相似度(TAS),这是一种新颖的指标,通过独立测量字体、颜色和背景相似性来评估风格保留,即使没有基本事实也能进行稳健的评估。实验结果表明,STELLAR 在视觉一致性和识别准确性方面优于最先进的模型,与基线相比,各种语言的平均 TAS 提高了 2.2% ...