在建立图形用户界面(GUI)代理方面的现有努力很大程度上依赖于大型视觉模型(LVLMS)的监督微调的训练范式。但是,这种方法不仅需要大量的培训数据,而且还需要有效理解GUI屏幕截图并推广到看不见的接口。该问题大大限制了其在现实情况下的应用,尤其是对于高级任务 ...
图形用户界面(GUI)代理为自动化复杂的数字任务提供跨平台解决方案,具有转换生产力工作流程的巨大潜力。但是,它们的性能通常受到高质量轨迹数据的稀缺性的限制。为了解决这一限制,我们在专门的中期训练阶段提出了培训视觉语言模型(VLM),推理密集型任务,然后研究如何纳入这些任务如何促进对GUI计划方案的概括 ...
测试气味可以损害测试套件的可靠性和阻碍软件维护。尽管存在几种检测测试气味的策略,但很少有人解决它们的去除。传统方法通常依靠静态分析或机器学习,需要大量的努力和专业知识 ...
语言代理已成为复杂互动任务的有前途的解决方案。语言代理成功的关键要素之一是有关代理工作流程轨迹的奖励模型,该模型在培训或推理过程中提供了宝贵的指导。但是,由于缺乏中间互动的注释,大多数现有作品都使用结果奖励模型来优化整个轨迹的政策 ...
维护和扩展软件系统在很大程度上取决于有效的代码重构,但是此过程仍然是劳动密集型的,要求开发人员仔细分析现有代码库并防止引入新的缺陷。尽管最近的进步利用了大型语言模型(LLMS)来自动化重构任务,但当前解决方案在范围和缺乏机制方面受到限制,无法保证代码汇编和成功的测试执行。在这项工作中,我们介绍了Mantra,这是一个基于LLM代理的综合框架,可自动化方法级重构 ...
在过去的几十年中,扑克作为一个游戏家族已经进行了广泛的研究,但可收藏的纸牌游戏的关注相对较少。直到最近,我们才看到一个可以与最受欢迎的可收藏式纸牌游戏之一与专业人类玩家竞争的经纪人。尽管人工代理必须能够在这两种类型中使用不完美的信息,但可收藏的纸牌游戏构成了另一组独特的挑战 ...
学习如何适应复杂而动态的环境是导致我们智力的最重要因素之一。赋予人工代理商这种能力并不是一项简单的任务,尤其是在竞争性场景中。在本文中,我们介绍了一项广泛的研究,介绍了如何对流行的增强学习算法进行调整和实施,以学习和播放竞争性的多人卡游戏的现实实现 ...
多模态检索增强生成(mRAG)在缓解多模态大语言模型(MLLM)固有的“幻觉”问题方面发挥着重要作用。尽管很有希望,但现有的启发式 mRAG 通常预定义固定的检索过程,这会导致两个问题:(1)非自适应检索查询。 (2) 重载检索查询 ...