- 名称
- DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
- 描述
多模式的大语言模型(MLLM)表现出对场景的复杂理解,从大规模和高质量的数据集中受益。大多数现有的字幕数据集都缺乏视觉实体的地面位置和关系。几个接地的标题数据集面临着缺少详细描述,关系和大量对象描述的问题 ...
多模式的大语言模型(MLLM)表现出对场景的复杂理解,从大规模和高质量的数据集中受益。大多数现有的字幕数据集都缺乏视觉实体的地面位置和关系。几个接地的标题数据集面临着缺少详细描述,关系和大量对象描述的问题 ...