首页 > 快讯 > 快讯详情

20页→86页!DeepSeek“爆更”论文

格隆汇1月8日|近日,DeepSeek更新了关于R1模型的论文,文章篇幅从原本的约20页扩展至86页。 更新后的文章进一步详细展示了LLM(大语言模型)的推理能力可以通过纯粹的强化学习(RL)来训练,且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。同时,该方式在训练成本上也极具竞争力,DeepSeek-R1-Zero的训练仅耗时198小时。