跳到主要内容

1 篇博文 含有标签「Group Relative Policy Optimization (GRPO)」

查看所有标签

强化学习动手实践:初探 DeepSeek R1 顿悟现象

在人工智能训练过程中,模型能力的跃迁往往并非线性提升,而是伴随着潜移默化的积累与突现的顿悟。本文以小模型为例,尝试通过强化学习探索 DeepSeek R1 中“顿悟现象”的再现与分析,揭示智能系统从量变到质变的过程。

一、实践目的

我们实践的目标包括:

  • 探索语言模型在强化学习中表现出来的“顿悟”(Aha Moment)现象,即模型能力出现显著提升的瞬间。
  • 理解模型训练过程中每个代码模块的作用,并实际动手完成一次训练。