由于任务的固有复杂性和上下文窗口约束,长期的视频理解(LVU)对当前多模式大型语言模型(MLLM)提出了重大挑战。人们普遍认为,解决LVU任务需要具有扩展上下文窗口,强大的视觉感知功能和熟练域专业知识的基础MLLM。在这项工作中,我们通过介绍VideodePresearch(一种新型的代理框架,供长期视频理解,我们挑战了这种共同的信念 ...
近几十年来,时间序列模型和跨各种单独任务的基准取得了实质性进展,例如时间序列预测、分类和异常检测。同时,时间序列中的组合推理在现实世界的应用中很普遍(例如 ...
GUI自动化面临动态环境中的关键挑战。 MLLM遇到了两个关键问题:误解UI组件和过时的知识。对于特定于应用程序的知识更新,传统的微调方法是昂贵的 ...
由于广泛的时间空间复杂性以及在此类扩展的环境下回答的难度,长期视频理解提出了重大挑战。尽管大型语言模型(LLMS)在视频分析功能和较长的背景处理方面表现出了很大的进步,但在处理长达一个小时的视频时,它们仍会表现出局限性。为了克服此类限制,我们建议深入的视频发现代理,以通过分段视频剪辑利用代理搜索策略 ...
多代理增强学习(MARL)的行为多样性代表了一个新兴而有希望的研究领域。先前的工作主要集中在多代理系统中的组内行为一致性上,对多代理分组场景的行为一致性有限。在本文中,我们引入了双层行为一致性(DLBC),这是一种新型的MARL控制方法,旨在明确调节组内和组间水平的药物行为 ...
我们介绍了DabStep,这是一种新颖的基准,用于评估AI代理在现实的多步数据分析任务上。 DABSTEP包括从财务分析平台中衍生出的450多个现实世界挑战,要求模型将基于代码的数据处理与上下文推理相结合而不是异质文档。每个任务都需要一种迭代,多步骤解决方法的方法,在数据操作中测试功能,交叉引用多个来源以及确切的结果报告 ...
基于大语言模型(LLM)并与工具和内存相互作用的代理AI系统在功能和范围方面已快速提高。但是,由于已显示LLM在多语言环境中挣扎,通常会导致性能降低和安全性降低,因此代理系统风险继承这些限制。这引起了人们对此类系统的全球可访问性的担忧,因为用英语以外的其他语言进行交互的用户可能会遇到不可靠或关键安全的代理行为 ...
建立在大型基础模型上的多模式代理的快速进步在很大程度上忽略了它们在协作任务中基于语言的沟通的潜力。这种疏忽在理解其在现实世界部署中的有效性方面尤其是在与人类沟通时的关键差距。现有的代理基准无法解决代理间沟通和协作的关键方面,尤其是在代理商无法获得信息不平等的情况下,必须共同努力以实现超出个人功能范围的任务 ...