内容简介:刚看完DeepSeek R1技术报告论文《DeepSeek-R1:强化学习驱动的大语言模型推理能力提升》,这篇论文最令人震惊的点在于: DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调(SFT)数据,仅通过纯粹的强化学习(RL)训练的模型,展现出了惊人的推理能力,推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型(如 o1-0912),完全开源...
用户评论
推荐服务