arxiv Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey

/documents/69689/

基本信息

文件基本信息

名称
Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey
描述
近年来,大型语言模型(LLM)推动了语言理解的重大进步,标志着向通用人工智能(AGI)迈出了重要一步。随着对高级语义和跨模态融合的需求不断增加,多模态大语言模型(MLLM)应运而生,它集成了不同的信息源(例如文本、视觉和音频)以增强复杂场景中的建模和推理。在科学人工智能领域,多模态情感识别和推理已成为一个快速发展的前沿领域。尽管 LLM 和 LLM 在这一领域取得了显着进展,但该领域仍然缺乏巩固最新发展的系统回顾。为了解决这一差距,本文对用于情感识别和推理的 LLM 和 MLLM 进行了全面的调查,涵盖模型架构、数据集和性能基准。我们进一步强调了关键挑战并概述了未来的研究方向,旨在为研究人员提供推动该领域发展的权威参考和实践见解。据我们所知,本文是首次尝试全面调查 MLLM 与多模态情感识别和推理的交叉点。提到的现有方法的摘要在我们的 Github 中:\href{this https URL}{this https URL} ...