首页 > 快讯 > 快讯详情

20页→86页！DeepSeek“爆更”论文

2026-01-08

格隆汇1月8日｜近日，DeepSeek更新了关于R1模型的论文，文章篇幅从原本的约20页扩展至86页。更新后的文章进一步详细展示了LLM（大语言模型）的推理能力可以通过纯粹的强化学习（RL）来训练，且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。同时，该方式在训练成本上也极具竞争力，DeepSeek-R1-Zero的训练仅耗时198小时。

事件播报

民生银行(01988.HK)遭摩根大通减持420万股

港股公告摘要 3分钟前

豪威集团(00501.HK)获Formosa Opportunity Limited增持11.79万股

港股公告摘要 10分钟前

潼关黄金(00340.HK)获股东蒋薇增持50万股

港股公告摘要 13分钟前

20页→86页！DeepSeek“爆更”论文

民生银行(01988.HK)遭摩根大通减持420万股

豪威集团(00501.HK)获Formosa Opportunity Limited增持11.79万股

潼关黄金(00340.HK)获股东蒋薇增持50万股