清华研究颠覆认知：强化学习未突破大模型能力边界

2025-04-25

加自选

清华大学与上海交通大学的研究发现，强化学习（RLVR）训练的大模型在数学、代码、视觉推理等任务中，其推理能力边界未突破基座模型。实验显示，RLVR仅优化了采样效率，但正确答案已存在于基座模型中，且在大规模采样时基座模型表现更优。该研究质疑了RL对大模型推理能力的实质性提升作用，可能影响市场对RL技术的预期。

今日额度已用完

开通会员后解锁无限制查看权益

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表123彩票app稳定版下载官方立场，不构成投资建议。阅读详细说明，请点击此处