中文搜索引擎指南网
标题:
DeepSeek-R1模型的训练数据来源是什么?
[打印本页]
作者:
sowang
时间:
7 天前
标题:
DeepSeek-R1模型的训练数据来源是什么?
DeepSeek-R1模型的训练数据来源包括多种类型的数据集,主要用于模型的预训练、监督微调和强化学习阶段。
具体数据来源如下:
冷启动数据:用于初始的监督微调(SFT),包括人工收集的高质量长链思维(CoT)数据,这些数据经过格式规范化和多语言对齐处理。
推理数据:通过拒绝采样从强化学习阶段生成,筛选出正确的推理轨迹,约60万条,用于增强模型在数学、代码等领域的推理能力。
非推理数据:复用DeepSeek-V3的监督微调数据集,包括写作、事实问答等任务的数据,约20万条,用于提升模型在非推理任务上的表现。
合成数据:DeepSeek团队生成了60万条推理数据,用于迁移学习,证明模型能够将高级推理能力迁移到较小的模型中。
欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/)
Powered by Discuz! X3.2