中科大与中兴突破小模型瓶颈,课程强化学习显著提升多模态推理能力
2025-04-14

多
多模态AI
正面
加自选
中科大与中兴联合提出名为Curr-ReFT的课程式强化学习后训练范式,解决了小尺寸多模态模型在推理能力和域外泛化上的瓶颈问题。通过分阶段课程强化学习和拒绝采样自我改进策略,7B模型在多个基准测试中超越26B、38B大模型,显著提升视觉语言模型在复杂推理任务中的表现,为资源受限场景下的多模态AI应用提供新路径。
今日额度已用完开通会员后解锁无限制查看权益

重要提示和声明
本页面内容由AI提炼生成,无法确保完全真实准确,不代表123彩票app稳定版下载
官方立场,不构成投资建议。如需阅读详细说明,请
点击此处
