大型语言模型(LLM)的最新进展已使软件工程(SE)的协作人与许多专业相似。但是,尚未完全探索将LLM纳入定性数据分析中的潜在好处和含义。例如,对研究人员来说,手动进行定性数据分析可能是耗时,努力且容易出错的任务 ...
本文探讨了代理AI和Langgraph在推进机器翻译(MT)的自动化和有效性方面的变化作用。代理是旨在执行特定任务的模块化组件,例如在特定语言之间进行翻译,并分别使用TranslateEnagent,TranslateFrenchagent和TranslateJpagent(分别用于英语,法语和日语翻译)。这些代理利用大型语言模型(LLM)(例如GPT-4O)的强大语义能力来确保准确,上下文相 ...
我们使用普通LLM代理设计饱和高中级黑客基准。具体而言,我们使用提示,工具使用和多次尝试在Intercode-CTF(一种流行的进攻安全基准)上获得95%的性能。这击败了Phuong的先前工作等人 ...
GUI 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ,特别是多模式模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...
交互环境中的现有语言基准要么缺乏现实世界的语言元素,要么由于人类大量参与数据或反馈信号的收集而难以扩展。为了弥补这一差距,我们开发了,网店 - 其中包含价值1.18美元的真实世界产品和价值12,087美元的众包文本说明... ...
在微服务体系结构的领域中,经常发生的事件的发生需要雇用根本原因分析(RCA)以进行快速问题解决。很常见的是,严重的事件可能需要几个小时的时间来确定根本原因。因此,当代趋势涉及将大型语言模型(LLMS)作为RCA的自动化代理 ...
大型语言模型(llm)正变得越来越智能和自主,其目标是超越传统nlp任务的现实世界实用任务。因此,llm作为交互式环境中具有挑战性任务的代理人的能力。我们推出了代理商,这是一个多维度不断发展的基准,目前由,8个不同的环境组成 ...
大型语言模型(llm)促进了各种人工智能对话代理的开发,包括模仿不同角色和人类行为的角色扮演对话代理。虽然之前的研究主要集中在增强这些智能体的对话能力、特定角色的知识和风格属性上,但在评估他们的社交智力方面存在明显的差距。在本文中,我们介绍了社交板,这是第一个旨在系统评估角色扮演对话代理在个人和群体社交层面的社交性的基准... ...