Multimodal Large Language Models Make Text-to-Image Generative Models Align Better

Xun Wu, Shaohan Huang, Guolong Wang, Jing Xiong, Furu Wei

摘要

Recent studies have demonstrated the exceptional potentials of leveraging human preference datasets to refine text-to-image generative models