arxiv Unified Reward Model for Multimodal Understanding and Generation

名称
Unified Reward Model for Multimodal Understanding and Generation
首页
https://yiyibooks.cn/arxiv/2503.05236v1/index.html
原始地址
https://arxiv.org/pdf/2503.05236
描述
人类偏好一致性的最新进展显着增强了多模式的产生和理解。一个关键方法是培训奖励模型,以指导偏好优化。但是,现有模型通常是特定于任务的,从而限制了它们在各种视觉应用中的适应性 ...