从擅长单模态任务的 Specific-MLLM,到扩展通用模态范围的 Omni-MLLM,这种演变旨在实现多模态信息的理解和生成。 Omni-MLLM 将不同模态的特征视为不同的“外语”,从而在统一的空间内实现跨模态交互和理解。为了促进相关研究的进步,我们整理了47篇相关论文,为社区提供对Omni-MLLM的全面介绍 ...
我们提出了Unified-io,该模型执行了跨越经典计算机视觉任务任务的各种AI任务,包括姿势估计,对象检测,深度估计和图像产生,视觉和语言任务,例如区域字幕和引用表达,以自然语言处理任务,例如询问答案和paraphrasing。由于与每个任务有关的异质输入和输出,包括RGB图像,每个像素映射,二进制掩码,边界框和语言,为如此多的任务开发单个统一模型引起了独特的挑战。我们通过将每个受支持的输入和输出均匀地归因于一系列离散的词汇 Token 来实现这一统一 ...
大型语言模型(LLM)代理商框架通常采用模块化体系结构,并结合诸如计划,推理,行动执行和反思等组件来处理复杂的任务。但是,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和解释性。为了解决这个问题,我们介绍了Capabench(功能级评估基准),这是一个基于合作游戏理论的Shapley价值的评估框架,该框架系统地测量了单个模块及其在代理体系结构中的边际影响 ...
GUI 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ,特别是多模式模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...
大型语言模型(LLM)在各种领域和任务上表现出了非凡的功能,挑战了我们对学习和认知的理解。尽管最近取得了成功,但当前的LLM仍无法处理复杂的音频信息或进行口头对话(例如Siri或Alexa)。在这项工作中,我们提出了一个名为Audiogpt的多模式AI系统,该系统对LLMS进行了补充(i ...
基于大型语言模型(LLM)的多代理系统(MAS)在解决复杂的任务方面表现出了希望,但通常依靠预定义的角色和集中协调,限制了其适应性的不断发展的挑战。本文介绍了Morphagent,这是一个用于分散多代理协作的新型框架,使代理商能够动态发展其角色和能力。我们的方法采用自我发展的代理概况,通过三个关键指标进行了优化,指导代理人在维护互补团队动态的同时,指导他们的个人专业知识 ...
多模式大语言模型(MLLM)的兴起已成为人工智能领域的变革力量,使机器能够处理和生成跨多种模式(例如文本,图像,音频和视频)的内容。这些模型代表了对传统单峰系统的重大进步,从自主诊断到医学诊断的各种应用程序开放了新的边界。通过整合多种模式,MLLM对信息有了更全面的了解,密切模仿了人类的看法 ...
虽然视觉模型(VLM)在结合文本和视觉信息的各种任务中表现出了出色的性能,但他们继续处理需要详细的像素级分析的细粒视觉感知任务。有效地从VLM上引起此类复杂的视觉元素的全面推理仍然是一个开放的挑战。在本文中,我们提出了Vipact,这是一个代理框架,通过整合多机构协作和视觉专家模型来增强VLM,从而实现更精确的视觉理解和全面的推理 ...
大型语言模型 (LLM) 彻底改变了开放域对话代理,但在多角色角色扮演 (MCRP) 场景中遇到了挑战。为了解决这个问题,我们推出了 Neeko,一个专为高效的多角色模仿而设计的创新框架。与现有方法不同,Neeko 采用动态低阶适配器 (LoRA) 策略,使其能够无缝适应不同的角色 ...
在大型语言模型(LLMS)中的可定制角色扮演(也称为角色泛化)正在越来越关注其在开发和部署角色扮演对话代理方面的多功能性和成本效益。这项研究探讨了一种大规模数据综合方法,以配备LLM具有特征泛化功能。我们首先使用角色枢纽的角色综合大规模角色概况,然后探索两种策略:响应重写和响应生成,以创建与角色一致的教学响应 ...