【论文阅读】DeepSeekR1 :摘要(Abstract)
07:57
【论文阅读】DeepSeekR1 :目录(Contents)
15:14
【论文阅读】DeepSeekR1 :1 简介(Introduction)泛读
37:15
【论文阅读】DeepSeekR1 :1.1 贡献(Contributions)
21:58
【论文阅读】DeepSeekR1 :2.1 技术概述(Approach-Overview)
13:04
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式一 (抽象期望值公式的展开/实现式)
32:08
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式二 (KL散度)
18:18
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式三(组内优势)
14:50
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式总结
22:13
【论文阅读】DeepSeekR1 :2.2 DeepSeek-R1-Zero 技术泛读
07:02
【论文阅读】DeepSeekR1 :2.2.2 基于规则的奖励建模(Reward Modeling)泛读
19:27
【论文阅读】DeepSeekR1 :2.2.3 训练模板(Training Template)
16:20
【论文阅读】DeepSeekR1 :2.2.4 表现、自我进化(Performance, Self-evolution Process)
27:15
【论文阅读】DeepSeekR1 :2.2.4 顿悟时刻(Aha Moment)
26:32
【论文阅读】DeepSeekR1 :2.3 R1技术泛读
11:06
【论文阅读】DeepSeekR1 :2.3.1 冷启动(Cold Start)
17:33
【论文阅读】DeepSeekR1 :2.3.2 面向推理学习(Reasoning-oriented Reinforcement Learning)
17:17
【论文阅读】DeepSeekR1 :2.3.3 拒绝采样与监督微调(Rejection Sampling, Supervised Fine Tuning)
15:42
【论文阅读】DeepSeekR1 :2.3.4 面向全场景的强化学习(All Scenarios)
29:30
【论文阅读】DeepSeekR1 :2.4 蒸馏(Distillation)
14:41
【论文阅读】DeepSeekR1 :3 实验评测(Experiment)
09:49
【论文阅读】DeepSeekR1 :4.1 要蒸馏还是要强化学习?(Distillation vs Reinforcement Learning)
12:37
【论文阅读】DeepSeekR1 :4.2 PRM方法的局限(Process Reward Model)
23:54
【论文阅读】DeepSeekR1 :4.2 MCTS方法的局限(Monte Carlo Tree Search)
19:15
【论文阅读】DeepSeekR1 :5 结语(Conclusion Limitation and Future work)
18:31
【论文阅读】DeepSeekR1 阅读复盘:什么是“基于基础模型”的强化学习?
14:00
【论文阅读】DeepSeekR1 阅读复盘:R1的训练流程是怎么样的?
08:40