清华研究颠覆认知:强化学习未突破大模型能力边界
2025-04-25

人
人工智能
强烈正面
加自选
清华大学与上海交通大学的研究发现,强化学习(RLVR)训练的大模型在数学、代码、视觉推理等任务中,其推理能力边界未突破基座模型。实验显示,RLVR仅优化了采样效率,但正确答案已存在于基座模型中,且在大规模采样时基座模型表现更优。该研究质疑了RL对大模型推理能力的实质性提升作用,可能影响市场对RL技术的预期。
今日额度已用完开通会员后解锁无限制查看权益

重要提示和声明
本页面内容由AI提炼生成,无法确保完全真实准确,不代表123彩票app稳定版下载
官方立场,不构成投资建议。阅读详细说明,请点击此处
