- 名称
- Unified Reward Model for Multimodal Understanding and Generation
- 描述
人类偏好一致性的最新进展显着增强了多模式的产生和理解。一个关键方法是培训奖励模型,以指导偏好优化。但是,现有模型通常是特定于任务的,从而限制了它们在各种视觉应用中的适应性 ...
人类偏好一致性的最新进展显着增强了多模式的产生和理解。一个关键方法是培训奖励模型,以指导偏好优化。但是,现有模型通常是特定于任务的,从而限制了它们在各种视觉应用中的适应性 ...