arxiv DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World

名称
DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World
首页
https://yiyibooks.cn/arxiv/2506.24102v1/index.html
原始地址
https://arxiv.org/abs/2506.24102v1
描述
多模式的大语言模型(MLLM)表现出对场景的复杂理解,从大规模和高质量的数据集中受益。大多数现有的字幕数据集都缺乏视觉实体的地面位置和关系。几个接地的标题数据集面临着缺少详细描述,关系和大量对象描述的问题 ...