基本信息

文件基本信息

名称

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey

首页

https://yiyibooks.cn/arxiv/2509.24322v1/index.html

原始地址

https://arxiv.org/abs/2509.24322

描述

近年来，大型语言模型（LLM）推动了语言理解的重大进步，标志着向通用人工智能（AGI）迈出了重要一步。随着对高级语义和跨模态融合的需求不断增加，多模态大语言模型（MLLM）应运而生，它集成了不同的信息源（例如文本、视觉和音频）以增强复杂场景中的建模和推理。在科学人工智能领域，多模态情感识别和推理已成为一个快速发展的前沿领域。尽管 LLM 和 LLM 在这一领域取得了显着进展，但该领域仍然缺乏巩固最新发展的系统回顾。为了解决这一差距，本文对用于情感识别和推理的 LLM 和 MLLM 进行了全面的调查，涵盖模型架构、数据集和性能基准。我们进一步强调了关键挑战并概述了未来的研究方向，旨在为研究人员提供推动该领域发展的权威参考和实践见解。据我们所知，本文是首次尝试全面调查 MLLM 与多模态情感识别和推理的交叉点。提到的现有方法的摘要在我们的 Github 中：\href{this https URL}{this https URL} ...