多模态大语言模型 (MLLM) 的最新进展使移动 GUI 代理能够进行视觉感知、跨模态推理和交互控制。然而,现有的基准主要以英语为中心,未能捕捉到中国移动生态系统的语言和交互特征。他们还专注于GUI基础或离线代理等孤立的技能,缺乏统一、细粒度的框架来评估从感知到执行的完整能力链。为了弥补这一差距,我们推出了 GUI-CEval,这是第一个完全基于物理设备环境构建的中国移动 GUI 代理的综合基准测试。 GUI-CEval跨越四种设备类型的201个主流应用程序,采用两级结构,从感知、规划、反射、执行和评估五个维度评估原子能力和实际应用级性能。所有数据均通过多阶段手动流程收集和验证,以确保真实性和可重复性。对 20 个代表性 MLLM 和多智能体系统的大量实验表明,虽然 Qwen2.5-VL 和 UI-TARS 等模型具有竞争力,但大多数 MLLM 在反思性决策和行动后自我评估方面仍然表现出明显的弱点,限制了它们在现实世界交互中的可靠性。我们希望GUI-CEval能够提供一个全面且可解释的基准来指导能力诊断并推动中国移动GUI代理的发展 ...

0 0 0 0 2026/03/17 arXiv:2603.15039v1 skyspark

移动图形用户界面(GUI)代理的最新进展凸显了对综合评估基准日益增长的需求。虽然新的在线基准测试比离线基准测试提供了更真实的测试,但它们往往关注代理的任务指令遵循能力,而忽略了他们的推理和探索能力。此外,这些基准测试没有考虑现实移动环境中的随机噪声。这导致基准测试和现实环境之间存在差距。为了解决这些限制,我们提出了 MobileBench-OL,这是一个在线基准测试,包含来自 80 个中国应用程序的 1080 个任务。它通过包含 5 个子集来衡量智能体的任务执行、复杂推理和噪声鲁棒性,这些子集设置了多个评估维度。我们还提供带有重置机制的自动评估框架,从而实现稳定且可重复的现实世界基准测试。在 MobileBench-OL 上评估 12 个领先的 GUI 代理显示出满足实际需求的巨大改进空间。人工评估进一步证实 MobileBench-OL 可以可靠地测量真实环境中领先 GUI 代理的性能。我们的数据和代码将在接受后发布 ...

0 0 0 0 2026/03/09 arXiv:2601.20335v2 skyspark

图形用户界面(GUI)代理受益于多模式大语言模型(MLLM)的最新进展,取得了显着的发展。然而,由于GUI应用程序的频繁更新,在GUI持续学习中适应新任务而不忘记旧任务仍然是一个悬而未决的问题。在这项工作中,我们揭示了虽然监督微调(SFT)有助于快速适应,但它经常会触发知识覆盖,而强化学习(RL)则表现出一种固有的弹性,可以保护先前的交互逻辑不被擦除。基于这一见解,我们提出了一个 \textbf{C}ontinual \textbf{G}UI \textbf{L}earning (CGL) 框架,通过增强 SFT 和 RL 之间的协同作用来动态平衡适应效率和技能保留。具体来说,我们引入了一种由策略熵引导的 SFT 比例调整机制,以动态控制 SFT 和 RL 训练阶段之间的权重分配。为了解决显式梯度干扰,我们进一步开发了专门的梯度手术策略。通过将探索性 SFT 梯度投影到基于 GRPO 的锚梯度上,我们的方法显式地剪辑了与 GRPO 冲突的 SFT 梯度分量。最重要的是,我们建立了 AndroidControl-CL 基准,它将 GUI 应用程序划分为不同的任务组,以有效地模拟和评估持续 GUI 学习的性能。实验结果证明了我们提出的 CGL 框架在持续学习场景中的有效性。基准、代码和模型将公开 ...

0 0 0 0 2026/03/06 arXiv:2603.02951v1 skyspark

现有的图形用户界面(GUI)代理通过逐步调用视觉语言模型进行操作——截取屏幕截图,推理下一个动作,执行它,然后在新页面上重复——导致高成本和延迟,随着推理步骤的数量而增加,并且由于没有先前访问过的页面的持久内存,准确性有限。我们提出了 ActionEngine,这是一种免训练框架,通过新颖的双代理架构从反应式执行过渡到编程式规划:爬行代理通过离线探索构建 GUI 的可更新状态机内存,执行代理利用该内存合成完整的可执行 Python 程序以执行在线任务。为了确保针对不断变化的接口的鲁棒性,执行失败会触发基于视觉的重新接地回退,以修复失败的操作并更新内存。这种设计极大地提高了效率和准确性:在 WebArena 基准测试的 Reddit 任务中,我们的代理平均通过一次 LLM 调用实现了 95% 的任务成功率,而最强的仅视觉基线的成功率为 66%,同时将成本降低了 11.8 倍,端到端延迟降低了 2 倍。这些组件通过将全局编程规划、爬虫验证的操作模板以及节点级执行与本地化验证和修复相结合,产生可扩展且可靠的 GUI 交互 ...

0 0 0 0 2026/03/06 arXiv:2602.20502v1 skyspark

Pure-vision GUI代理提供了通用的交互能力,但由于高分辨率屏幕截图和历史轨迹中固有的大量时空冗余而遭受严重的效率瓶颈。我们确定了现有压缩范式中的两个关键失调:时间不匹配,其中统一的历史编码与代理的“褪色记忆”注意力模式不同;以及空间拓扑冲突,其中非结构化修剪损害了精确坐标接地所需的网格完整性,从而引发空间幻觉。为了应对这些挑战,我们引入了 GUIPruner,这是一个专为高分辨率 GUI 导航而定制的免培训框架。它协同时间自适应分辨率(TAR)和分层结构感知修剪(SSP),前者通过基于衰减的调整大小来消除历史冗余,后者优先考虑交互式前景和语义锚点,同时保护全局布局。跨不同基准的广泛评估表明,GUIPruner 始终实现最先进的性能,有效防止在高压缩下大型模型中观察到的崩溃。值得注意的是,在 Qwen2-VL-2B 上,我们的方法使 FLOP 减少了 3.4 倍,视觉编码延迟加快了 3.3 倍,同时保留了超过 94% 的原始性能,从而以最少的资源消耗实现实时、高精度导航 ...

0 0 0 0 2026/02/28 arXiv:2602.23235v1 skyspark

在长范围导航任务上,开源本机 GUI 代理仍然落后于闭源系统。这种差距源于两个限制:缺乏高质量、与行动一致的推理数据,以及直接采用通用的训练后管道,而忽视了 GUI 代理的独特挑战。我们在这些流程中发现了两个基本问题:(i)带有 CoT 推理的标准 SFT 经常会损害基础,(ii)逐步 RLVR 式训练面临部分可验证性,其中多个动作可能是正确的,但仅使用单个演示动作进行验证。这使得离线逐步指标对在线任务成功的预测能力较弱。在这项工作中,我们提出了 GUI-Libra,这是一种解决这些挑战的定制培训方案。首先,为了缓解与动作相关的推理数据的稀缺性,我们引入了数据构建和过滤管道,并发布了精选的 81K GUI 推理数据集。其次,为了协调推理与基础,我们提出了行动感知 SFT,它将推理然后行动和直接行动数据混合在一起,并重新加权标记以强调行动和基础。第三,为了在部分可验证性下稳定 RL,我们发现了 RLVR 中 KL 正则化被忽视的重要性,并表明 KL 信任区域对于提高离线到在线的可预测性至关重要;我们进一步引入成功自适应缩放来减轻不可靠的负梯度的权重。在不同的网络和移动基准测试中,GUI-Libra 不断提高逐步准确性和端到端任务完成度。我们的结果表明,精心设计的训练后和数据管理可以释放更强大的任务解决能力,而无需昂贵的在线数据收集。我们发布数据集、代码和模型,以促进对具有推理能力的 GUI 代理的数据高效后训练的进一步研究 ...

0 0 0 0 2026/02/27 arXiv:2602.22190v1 skyspark

对于程序员来说,调试是一项关键但具有挑战性的任务。本文提出了 ChatDBG,一种人工智能驱动的调试助手。 ChatDBG 集成了大型语言模型 (LLM),显着增强了传统调试器的功能和用户友好性。 ChatDBG 让程序员能够与调试器进行协作对话,从而提出有关程序状态的复杂问题,对崩溃或断言失败进行根本原因分析,并探索诸如“为什么 x 为空?”之类的开放式查询。为了处理这些查询,ChatDBG 授予 LLM“掌控方向盘”的自主权:它可以充当独立代理,能够查询和控制调试器以在堆栈中导航并检查程序状态。然后它报告其发现并将控制权交还给程序员。通过利用 LLM 中嵌入的现实世界知识,ChatDBG 可以诊断只能通过使用特定领域推理才能识别的问题。我们的 ChatDBG 原型与标准调试器集成,包括用于本机代码的 LLDB 和 GDB 以及用于 Python 的 Pdb。我们对一组不同的代码(包括具有已知错误的 C/C++ 代码和一套 Python 代码(包括独立脚本和 Jupyter 笔记本))进行的评估表明,ChatDBG 可以成功分析根本原因、解释错误并为各种实际错误生成准确的修复程序。对于 Python 程序,67% 的情况下,单个查询会导致可操作的错误修复;额外的一项后续查询将成功率提高到 85%。 ChatDBG 得到了快速采用;它的下载次数已超过 75,000 次 ...

0 0 0 0 2025/12/11 arXiv:2403.16354v5 skyspark

最近的统一多模态大语言模型 (MLLM) 显示了令人印象深刻的功能,结合了思想链 (CoT) 推理来增强文本到图像的生成。然而,现有的方法仍然有限,要么仅将模型视为独立的生成器,要么依赖于抽象的文本规划。为此,我们提出了 Draft-as-CoT (DraCo),这是一种新颖的交错推理范式,充分利用 CoT 中的文本和视觉内容来更好地规划和验证。我们的方法首先生成一个低分辨率草稿图像作为预览,提供更具体和结构性的视觉规划和指导。然后,我们利用模型固有的理解能力来验证草稿和输入提示之间潜在的语义不一致,并通过超分辨率的选择性校正来进行细化。通过这种方式,我们的方法解决了两个基本挑战:文本规划的粗粒度性质和生成稀有属性组合的难度。为了支持培训,我们策划了 DraCo-240K,旨在增强涵盖一般校正、实例操作和布局重组的三种原子功能。在 DraCo-CFG(一种用于交错推理的专用无分类器引导 (CFG) 策略)的支持下,DraCo 在 GenEval (+8%)、Imagine-Bench (+0.91) 和 GenEval++ (+3%) 上实现了巨大的提升,显着优于直接生成和 CoT 授权的其他生成方法 ...

0 0 0 0 2025/12/06 arXiv:2512.05112v1 skyspark