中文搜索引擎指南网

标题: DeepSeek-R1模型的训练数据来源是什么？ [打印本页]

作者: sowang 时间: 2025-2-16 14:33
标题: DeepSeek-R1模型的训练数据来源是什么？
DeepSeek-R1模型的训练数据来源包括多种类型的数据集，主要用于模型的预训练、监督微调和强化学习阶段。

具体数据来源如下：

冷启动数据：用于初始的监督微调（SFT），包括人工收集的高质量长链思维（CoT）数据，这些数据经过格式规范化和多语言对齐处理。

推理数据：通过拒绝采样从强化学习阶段生成，筛选出正确的推理轨迹，约60万条，用于增强模型在数学、代码等领域的推理能力。

非推理数据：复用DeepSeek-V3的监督微调数据集，包括写作、事实问答等任务的数据，约20万条，用于提升模型在非推理任务上的表现。

合成数据：DeepSeek团队生成了60万条推理数据，用于迁移学习，证明模型能够将高级推理能力迁移到较小的模型中。

欢迎光临中文搜索引擎指南网 (http://sowang.com/bbs/)