- 名称
- Evaluating Text-to-Visual Generation with Image-to-Text Generation
- 描述
尽管在生成AI方面取得了重大进展,但由于缺乏有效的指标和标准化的基准,全面的评估仍然具有挑战性。例如,广泛使用的夹克尺寸测量了(生成的)图像和文本提示之间的对齐,但是它无法为涉及对象,属性和关系组成的复杂提示而产生可靠的分数。原因之一是,剪辑编码的文本可以臭名昭著地充当“单词”,将诸如“马正在吃草”之类的提示混为一谈,“草在吃马” ...
尽管在生成AI方面取得了重大进展,但由于缺乏有效的指标和标准化的基准,全面的评估仍然具有挑战性。例如,广泛使用的夹克尺寸测量了(生成的)图像和文本提示之间的对齐,但是它无法为涉及对象,属性和关系组成的复杂提示而产生可靠的分数。原因之一是,剪辑编码的文本可以臭名昭著地充当“单词”,将诸如“马正在吃草”之类的提示混为一谈,“草在吃马” ...