大型语言模型(LLM)代理商的快速发展引起了人们对其安全性和安全性的新担忧,这是传统的以文字为中心的LLM护栏无法解决的。我们建议通过动态检查其行为是否满足安全守卫要求,这是第一个保护目标代理的护栏代理。具体而言,Guardagent首先分析安全保护人员的请求以生成任务计划,然后将此计划映射到护栏代码中进行执行 ...
随着对大语言模型(LLM)和AI代理的需求迅速增长,为有效的LLM推理的优化系统变得至关重要。尽管重大努力针对系统级工程,但通过数学建模和排队的角度探索了很少的努力。在本文中,我们旨在开发LLM推论的排队基础,弥合排队和LLM系统社区之间的差距 ...
代码审查旨在保证软件的整体质量和可靠性,是软件开发的基石。不幸的是,尽管代码审查至关重要,但它是一个劳动密集型过程,研究社区正在寻求自动化。现有的自动化方法依赖于单一输入输出生成模型,因此通常难以模拟代码审查的协作性质 ...
移动GUI代理在自动化任务时表现出希望,但在各种现实世界中面临概括挑战。使用预训练或通过大量数据集进行微调的传统方法与移动应用程序和特定用户特定任务的多样性斗争。我们建议通过人类的示威来增强移动GUI代理能力,重点是在看不见的情况下提高性能,而不是通过较大的数据集追求普遍的概括 ...
通过图形用户界面(GUI)自主操作移动应用程序的应用程序代理对现实世界应用产生了浓厚的兴趣。但是,他们经常在长途计划中挣扎,未能找到更长的步骤的复杂任务的最佳行动。为了解决这个问题,世界模型用于根据用户行动来预测下一个GUI观察,从而实现了更有效的代理计划 ...
尽管对多代理系统(MAS)的热情越来越多,在该系统中,多个LLM代理商协作完成任务,但与单个代理框架相比,它们在流行的基准测试中的性能提高仍然很小。这一差距强调了分析阻碍MAS效力的挑战的必要性。在本文中,我们介绍了对MAS挑战的首次全面研究 ...
教育环境中的数学错误检测对多模式大语言模型(MLLM)提出了重大挑战,需要对视觉和文本数学内容以及复杂的推理能力进行复杂的理解。尽管在数学问题解决方案方面有效,但MLLM经常在识别和分类多模式数学环境中的学生错误的细微任务上挣扎。因此,我们介绍了Mathagent,这是一种专门针对这些挑战的新型混合物框架 ...
大型语言模型(LLM)在产生上下文相干的响应方面表现出了极大的能力,但其固定上下文Windows构成了基本的挑战,可以保持长期多课程对话的一致性。我们介绍了MEM0,这是一种可扩展的以内存为中心的体系结构,通过动态提取,合并和从正在进行的对话中检索显着信息来解决此问题。在此基础的基础上,我们进一步提出了一种增强的变体,该变体利用基于图的内存表示来捕获对话元素之间的复杂关系结构 ...