大型语言模型(LLM)代理商框架通常采用模块化体系结构,并结合诸如计划,推理,行动执行和反思等组件来处理复杂的任务。但是,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和解释性。为了解决这个问题,我们介绍了Capabench(功能级评估基准),这是一个基于合作游戏理论的Shapley价值的评估框架,该框架系统地测量了单个模块及其在代理体系结构中的边际影响 ...
0 0 0 2025/02/28 arXiv:2502.00510v2 niuzai
代码合成需要深入理解复杂的自然语言问题描述、生成复杂算法和数据结构的代码指令以及成功执行全面的单元测试,这提出了重大挑战。虽然大型语言模型(llm)在自然语言处理方面表现出令人印象深刻的熟练程度,但它们在代码生成任务中的性能仍然有限。在本文中,我们介绍了一种利用多代理提示来执行代码生成任务的新方法,该方法独特地复制了人类开发人员观察到的程序合成的完整周期... ...
0 0 0 2025/02/27 arXiv:2405.11403v1 muzhi
我们介绍了HackSynth,这是一种新型的大型语言模型(LLM)的基于自主穿透测试的代理。 hacksynth的双模块体系结构包括一个计划器和一个摘要器,它使其能够生成命令和进程反馈迭代。为了基于基准的hacksynth,我们提出了两个新的捕获标志(CTF)的基准基准设置,利用流行的平台PICOCTF和OverThewire ...
0 0 0 2025/02/27 arXiv:2412.01778v1 tmylla
大型语言模型(LLM)在包括网络安全在内的各个领域都显示出巨大的潜力。由于隐私问题,成本和网络连接限制,使用基于云的LLM可能是不希望的。在本文中,我们提出了Hackphyr,这是本地微调的LLM,可在网络安全环境中用作红色团队代理 ...
0 0 0 2025/02/27 arXiv:2409.11276v1 tmylla
大型语言模型(LLMS)通过对话用户界面支持数据分析,如Openai的ChatGpt(正式称为高级数据分析或代码解释器)所示。从本质上讲,LLMS生成用于完成多种分析任务的代码。但是,呈现原始代码可能会掩盖逻辑并阻碍用户验证 ...
0 0 0 2025/02/27 arXiv:2408.01703v1 大红豆
Visual Analytics(VA)要求分析人员根据观察值提出分析任务,并通过创建可视化和交互式探索以获得见解来执行任务。此过程需要编程,数据处理和可视化工具的技能,强调需要采用更智能,简化的VA方法。最近已经开发了大型语言模型(LLMS)作为代理,以通过动态计划和使用工具功能来处理各种任务,从而提供了提高VA效率和多功能性的潜力 ...
0 1 0 2025/02/26 arXiv:2411.05651v1 大红豆
工作流与大语言模型(LLMS)的集成使基于LLM的代理能够执行预定义的过程,从而在现实世界应用程序中增强自动化。传统的基于规则的方法倾向于限制LLM的固有灵活性,因为它们的预定义的执行路径限制了模型的动作空间,尤其是在遇到意外的工作流程(OOW)查询时。相反,基于及时的方法使LLM可以完全控制流动,从而导致程序合规性的执行减少 ...
0 0 0 2025/02/26 arXiv:2502.14345v1 jueli
我们提出了岩浆,这是一个基础模型,可在数字世界和物理世界中提供多模式AI代理任务。岩浆是视觉语言(VL)模型的重要扩展,因为它不仅保留了后者的VL理解能力(言语智能),而且还具有在视觉空间世界中计划和行动的能力(空间 - 时间智能)和完整的代理任务,从UI导航到机器人操纵。为了赋予代理功能,岩浆是在跨越图像,视频到机器人数据的大量异质数据集上审议的,其中可起作用的视觉对象(e ...
0 1 0 2025/02/26 arXiv:2502.13130v1 attention2

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)