arxiv MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

名称
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
首页
https://yiyibooks.cn/arxiv/2404.05726v2/index.html
原始地址
https://arxiv.org/abs/2404.05726
描述
llm(llm)的成功,llm中以构建视觉语言基础模型最近引起了越来越多的兴趣。然而,llm 的大型多模式模型(例如 ...