随着对异质无人驾驶汽车(UAV)群在城市环境中执行复杂任务的需求不断增长,系统设计现在面临着重大挑战,包括有效的语义理解,灵活的任务计划以及动态调整协调策略以响应响应发展环境条件和不断变化的任务需求而动态调整协调策略。为了解决现有方法的局限性,本文提出了协调现场代理系统,以协调复杂的城市场景中的异质无人机群。在此系统中,大型语言模型(LLMS)负责解释高级人类指令,并将其转换为无人机群(例如巡逻和 ...
由LLM的高级功能驱动,多模式大语言模型(MLLM)目前正在经历快速增长。与早期的专家不同,现有的MLLM正在发展为多模式通才范式。最初,这些模型不仅可以理解多种方式,不仅要理解跨模态 ...
多模式的大语模型(MLLM)在图形用户界面(GUI)代理的开发中吸引了日益增长的关注。现有的方法通常依赖于历史屏幕截图或动作来隐式表示任务状态。这种依赖在准确理解任务状态方面对GUI代理构成了挑战,并强调了缺乏将关键信息存储在复杂且冗长的跨应用任务中的有效机制 ...
提议在2014年提出的生成对抗网络(GAN)对生成建模产生了新的兴趣。他们立即在图像综合,图像到图像翻译,文本对图像生成,图像介绍,并已用于从药物到高能粒子物理学等等的科学中。尽管它们的知名度和学习任意分布的能力,但GAN并未被广泛应用于推荐系统(RS) ...
在本文中,解决了用自然语言描述视频序列的视觉内容的问题。与以前的视频字幕作品不同,主要利用视频内容的提示来制作语言描述,我们提出了一个带有新颖的编码器decoder-reconstructor体系结构的重建网络(RECNET),该架构既利用远期(视频to sonto to Senter)和倒退(句子)(句子)进行视频节目。具体而言,编码器数据使用前向流来基于编码的视频语义特征来产生句子描述 ...
在本文中,我们研究了如何在视觉和语言(V+L)表示学习中使用蒙版的信号建模。与其独立开发蒙面语言建模(MLM)和蒙面图像建模(MIM),我们建议建立关节蒙版的视觉和语言建模,其中一种模式的掩盖信号是在另一种方式的帮助下重建的。这是由图像文本配对数据的性质进行的,这些数据既传达了几乎相同的信息,却以不同的格式传达 ...
联合学习(FL)可以在中央服务器协调从许多客户分配的数据中进行学习的设置中的隐私问题。客户在本地培训并将他们学习的模型传达给服务器;本地模型的聚合需要频繁地在客户端和中央服务器之间进行大量信息。我们提出了一种新颖,简单有效的方式,可以根据来自客户的收集模型的收集模型,以提供信息丰富的更新并估算未传达的本地更新 ...
尽管DRL(深度强化学习)已成为比现有手工制作的通信协议做出更好决策的强大工具,但它面临着重大局限性:1)选择适当的神经网络体系结构并设置超参数对于达到所需的性能水平至关重要,需要域名专业化。 2)DRL模型中的决策过程通常是不透明的,通常被描述为“黑匣子”。 3)DRL模型是饥饿的数据 ...