arxiv OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning

名称
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning
首页
https://yiyibooks.cn/arxiv/2503.11093v1/index.html
原始地址
https://arxiv.org/abs/2503.11093
描述
图像差异字幕(IDC)旨在生成图像对之间微妙差异的自然语言描述,既需要精确的视觉变化定位和连贯的语义表达。尽管有最近的进步,但现有数据集通常缺乏广度和深度,从而限制了它们在复杂而动态的环境中的适用性:(1)从广度的角度来看,当前数据集受到特定场景中对象的有限变化的约束,并且从深度的角度来看,先前的基准分析通常提供过于简单的描述。为了应对这些挑战,我们介绍了Omnidiff,这是一个全面的数据集,其中包括324个各种场景跨越现实世界的复杂环境和3D合成环境,并带有精细颗粒的人类注释,平均60个单词,涵盖12种不同的变化类型 ...