DeepSeek-R1模型的训练数据来源是什么？

sowang · 发表于 2025-2-16 14:33:31

DeepSeek-R1模型的训练数据来源包括多种类型的数据集，主要用于模型的预训练、监督微调和强化学习阶段。

具体数据来源如下：

冷启动数据：用于初始的监督微调（SFT），包括人工收集的高质量长链思维（CoT）数据，这些数据经过格式规范化和多语言对齐处理。

推理数据：通过拒绝采样从强化学习阶段生成，筛选出正确的推理轨迹，约60万条，用于增强模型在数学、代码等领域的推理能力。

非推理数据：复用DeepSeek-V3的监督微调数据集，包括写作、事实问答等任务的数据，约20万条，用于提升模型在非推理任务上的表现。

合成数据：DeepSeek团队生成了60万条推理数据，用于迁移学习，证明模型能够将高级推理能力迁移到较小的模型中。

		自动登录	找回密码
密码			禁止注册

DeepSeek-R1模型的训练数据来源是什么？

浏览过的版块