代码本地化 - 确切地确定需要进行代码库中的更改的位置 - 是软件维护中的基本而又具有挑战性的任务。在识别相关代码部分时,现有方法难以有效地导航复杂的代码库。挑战在于将自然语言问题描述与适当的代码元素桥接,通常需要跨层次结构和多个依赖性进行推理 ...
科学发现的进展很少是一个“尤里卡”时刻的结果,而是数百名科学家逐步朝着共同目标共同努力的产物。尽管现有的代理工作流程能够自主进行研究,但它们会孤立地进行研究,而无需不断改进先前的研究结果。为了应对这些挑战,我们介绍了AgentRxiv-A框架,该框架使LLM Agent Laboratories上传并从共享的预印式服务器中检索报告,以便协作,共享见解并迭代地互相研究 ...
最近的DeepSeek-R1通过加强学习(RL)和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上,我们是第一个探索基于规则的RL如何增强图形用户界面(GUI)操作预测任务的多模式大语言模型(MLLM)的推理功能。为此,我们策划了136个具有挑战性的任务的小型但高质量的数据集,其中包括移动设备上的五种常见动作类型 ...
大语言模型(LLMS)的快速演变已改变了人类计算机的相互作用(HCI),但是与LLMS的相互作用当前主要集中在基于文本的交互上,而其他多模型方法的互动仍未得到解释。本文介绍了VTUTOR,这是一种开源软件开发套件(SDK),将生成性AI与先进的动画技术相结合,以创建人类Multi-Media相互作用的引人入胜,适应性和现实的APA。 VTUTOR利用LLMS进行实时个性化反馈,高级唇部同步进行自然 ...
随着 LLM 的不断发展,迫切需要一种值得信赖的评估方法,能够及时提供可靠的评估结果。目前,由于静态基准容易出现污染问题,用户倾向于信任人工投票平台,例如 Chatbot Arena。然而,人工注释需要大量的手动工作 ...
寻找可行的,无碰撞的多种系统系统可能会具有挑战性,尤其是在非交流场景中,每个代理人的意图(例如目标)对其他代理人都无法观察到 ...
传统的代理工作流程依靠外部提示来管理与工具和环境的互动,这限制了推理模型的自主权。我们定位\ emph {大型代理模型(LAMS)},该模型内部化\ emph {emph {-Action(COA)}的生成,使模型能够自主决定何时以及如何使用外部工具。我们提出的AutoCOA框架结合了监督的微调(SFT)和增强学习(RL),使模型可以在推理和行动之间无缝切换,同时有效地管理环境交互 ...
长期以来,人们一直认为因果推理在健壮和一般情报中起着基本作用。但是,尚不清楚代理是否必须学习因果模型才能概括为新领域,或者其他电感偏见是否足够。我们回答了这个问题,表明任何能够满足大量分配转移束缚的遗憾的代理都必须学会了数据生成过程的近似因果模型,该过程将其收敛到最佳代理的真实因果模型 ...