中科大与中兴突破小模型瓶颈，课程强化学习显著提升多模态推理能力

2025-04-14

加自选

中科大与中兴联合提出名为Curr-ReFT的课程式强化学习后训练范式，解决了小尺寸多模态模型在推理能力和域外泛化上的瓶颈问题。通过分阶段课程强化学习和拒绝采样自我改进策略，7B模型在多个基准测试中超越26B、38B大模型，显著提升视觉语言模型在复杂推理任务中的表现，为资源受限场景下的多模态AI应用提供新路径。

今日额度已用完

开通会员后解锁无限制查看权益

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表123彩票app稳定版下载官方立场，不构成投资建议。如需阅读详细说明，请点击此处