用于自动语音识别 (ASR) 的文本注入,其中使用未配对的纯文本数据来补充配对的音频文本数据,已显示出对单词错误率的有希望的改善。本研究探讨了文本注入在辅助任务中的使用,这些任务是 E2E 模型经常执行的非 ASR 任务。在这项工作中,我们使用联合端到端和内部语言模型训练(JEIT)作为我们的文本注入算法来训练执行两个辅助任务的 ASR 模型。第一个是大写,这是一个非规范化任务。第二个是轮流预测,它试图识别用户是否在数字助理交互中完成了对话轮次。我们的结果表明,我们的文本注入方法提高了长尾数据的大写性能,并提高了轮流检测召回率 ...
这份多模态大语言模型 (MLLM) 调查和应用指南探索了快速发展的 MLLM 领域,研究了它们的架构、应用程序以及对人工智能和生成模型的影响。从基本概念开始,我们深入研究 MLLM 如何集成各种数据类型,包括文本、图像、视频和音频,以使复杂的 AI 系统能够进行跨模式理解和生成。它涵盖了培训方法、架构组件以及各个领域的实际应用等基本主题,从视觉讲故事到增强的可访问性。通过详细的案例研究和技术分析,本文研究了著名的 MLLM 实现,同时解决了可扩展性、稳健性和跨模式学习方面的关键挑战。该权威资源最后讨论了伦理考虑、负责任的人工智能发展和未来方向,提供了理论框架和实践见解。它对 MLLM 的开发和部署中的机遇和挑战提供了平衡的视角,对于对自然语言处理和计算机视觉交叉感兴趣的研究人员、从业者和学生来说非常有价值 ...
人工智能(AI)的快速发展已经彻底改变了许多领域,大型语言模型(LLM)和计算机视觉(CV)系统分别推动了自然语言理解和视觉处理的进步。这些技术的融合促进了多模式人工智能的兴起,实现了涵盖文本、视觉、音频和视频模式的更丰富的跨模式理解。特别是多模态大语言模型(MLLM)已经成为一个强大的框架,在图像文本生成、视觉问答和跨模态检索等任务中展示了令人印象深刻的功能。尽管取得了这些进步,MLLM 的复杂性和规模在可解释性和可解释性方面带来了重大挑战,这对于在高风险应用程序中建立透明度、可信度和可靠性至关重要。本文对 MLLM 的可解释性和可解释性进行了全面的调查,提出了一个新颖的框架,该框架从三个角度对现有研究进行分类:(I)数据,(II)模型,(III)训练和推理。我们系统地分析从 Token 级到嵌入级表示的可解释性,评估与架构分析和设计相关的方法,并探索提高透明度的训练和推理策略。通过比较各种方法,我们确定了它们的优点和局限性,并提出了未来的研究方向,以解决多模态可解释性中尚未解决的挑战。这项调查为提高 MLLM 的可解释性和透明度提供了基础资源,指导研究人员和从业者开发更负责任、更强大的多模式人工智能系统 ...
传统上,遥感中的时间图像分析以变化检测为中心,这标识了在不同时间捕获的图像之间的变化区域。但是,更改检测仍然受到视觉级别解释的关注,通常缺乏上下文或描述性信息。视觉模型(VLM)的兴起通过将视觉信息与自然语言集成,为遥感的时间图像分析引入了一个新的维度,从而为时间图像变化提供了高级解释的途径 ...
大视觉语言模型(LVLM)在处理视觉和文本信息方面表现出了卓越的能力。然而,视觉和文本表示之间的一致性的关键挑战尚未得到充分理解。这项调查通过可解释性的视角对 LVLM 中的对齐和错位进行了全面检查。我们首先研究对齐的基本原理,探索其表征和行为方面、训练方法和理论基础。然后,我们分析三个语义层面的错位现象:对象、属性和关系错位。我们的调查表明,错位源于多个层面的挑战:数据层面、模型层面和推理层面。我们对现有的缓解策略进行了全面的审查,将其分为参数冻结和参数调整方法。最后,我们概述了有前景的未来研究方向,强调标准化评估协议和深入可解释性研究的必要性 ...
人工智能(AI)在许多领域都取得了惊人的成功,尤其是在基础大型模型发展方面的最新突破。这些大型模型利用其广泛的培训数据,为各种下游任务提供了多功能解决方案。但是,随着现代数据集变得越来越多样化和复杂,大型AI模型的开发面临两个主要挑战:(1)巨大消费计算资源和部署困难,以及(2)拟合异质和复杂数据的困难,这限制了模型的可用性 ...
在过去的一年里,大型语言模型(LLM)的发展使空间智能成为人们关注的焦点,其中基于视觉的体现智能受到了广泛关注。然而,空间智能涵盖了更广泛的学科和规模,从导航和城市规划到遥感和地球科学。这些领域的空间智能之间有何区别和联系?在本文中,我们首先回顾了人类空间认知及其对 LLM 空间智能的影响。然后,我们研究 LLM 中的空间记忆、知识表征和抽象推理,强调它们的作用和联系。最后,我们按照从空间记忆和理解到空间推理和智能的框架,分析跨尺度的空间智能——从具体到城市和全球层面。通过这项调查,我们旨在为跨学科空间智能研究提供见解并启发未来的研究 ...
无人机 (UAV) 对于基础设施检查、监视和相关任务来说是不可或缺的,但它们也带来了严峻的安全挑战。这项调查对反无人机领域进行了广泛的研究,围绕三个核心目标——分类、检测和跟踪——同时详细介绍了新兴方法,例如基于扩散的数据合成、多模态融合、视觉语言建模、自监督学习和强化学习。我们系统地评估单模态和多传感器管道(涵盖 RGB、红外、音频、雷达和射频)的最先进解决方案,并讨论大规模和面向对抗的基准。我们的分析揭示了实时性能、隐形检测和基于集群的场景中持续存在的差距,强调了对强大的自适应反无人机系统的迫切需求。通过强调开放的研究方向,我们的目标是在无人机广泛使用的时代促进创新并指导下一代国防战略的发展 ...
视觉语言建模(VLM)旨在弥合图像和自然语言之间的信息差距。在先对海量图文对进行预训练,再对特定任务数据进行微调的新范式下,VLM在遥感领域取得了重大进展。由此产生的模型受益于广泛的常识的吸收,并在各种遥感数据分析任务中表现出强大的性能。此外,它们能够以对话方式与用户交互。在本文中,我们的目标是利用两阶段范式为遥感界提供对 VLM 发展的及时、全面的回顾。具体来说,我们首先介绍遥感中 VLM 的分类:对比学习、视觉指令调整和文本条件图像生成。对于每个类别,我们详细介绍了常用的网络架构和预训练目标。其次,我们对现有工作进行彻底审查,检查基于对比的 VLM 中的基础模型和特定于任务的适应方法、基于指令的 VLM 中的架构升级、训练策略和模型功能,以及生成基础模型及其代表性下游应用。第三,我们总结了用于 VLM 预训练、微调和评估的数据集,并分析了其构建方法(包括图像源和标题生成)和关键属性,例如规模和任务适应性。最后,我们通过对未来研究方向的见解和讨论来结束本次调查:跨模式表示对齐、模糊需求理解、解释驱动的模型可靠性、持续可扩展的模型功能以及具有更丰富模式和更大挑战的大规模数据集 ...
大型语言模型 (LLM) 与计算机视觉的集成正在深刻地改变图像分割等感知任务。对于智能交通系统 (ITS) 来说,准确的场景理解对于安全和效率至关重要,这种新范例提供了前所未有的功能。本次调查系统地回顾了 LLM 增强图像分割的新兴领域,重点关注其在 ITS 中的应用、挑战和未来方向。我们根据当前方法的激励机制和核心架构对当前方法进行分类,并重点介绍这些创新如何增强自动驾驶、交通监控和基础设施维护的道路场景理解。最后,我们确定了关键挑战,包括实时性能和安全关键可靠性,并概述了以可解释的、以人为中心的人工智能为中心的观点,作为在下一代交通系统中成功部署该技术的先决条件 ...