我们提出了 RLAIF-V 框架,在完全开源的范式中对齐多模态大模型,并实现了超越 GPT-4V 的可信度。 RLAIF-V 从构造高质量反馈数据和应用在线反馈学习算法这两个关键角度最大限度地利用了开源反馈,其的显著特点包括: 💪 通过开源反馈实现超越 GPT-4V 的可信度 ...