中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 143|回复: 0
打印 上一主题 下一主题

DeepSeek-R1模型的训练数据来源是什么?

[复制链接]
跳转到指定楼层
1#
发表于 7 天前 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
DeepSeek-R1模型的训练数据来源包括多种类型的数据集,主要用于模型的预训练、监督微调和强化学习阶段。

具体数据来源如下:

冷启动数据:用于初始的监督微调(SFT),包括人工收集的高质量长链思维(CoT)数据,这些数据经过格式规范化和多语言对齐处理。

推理数据:通过拒绝采样从强化学习阶段生成,筛选出正确的推理轨迹,约60万条,用于增强模型在数学、代码等领域的推理能力。

非推理数据:复用DeepSeek-V3的监督微调数据集,包括写作、事实问答等任务的数据,约20万条,用于提升模型在非推理任务上的表现。

合成数据:DeepSeek团队生成了60万条推理数据,用于迁移学习,证明模型能够将高级推理能力迁移到较小的模型中。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2025-2-23 06:43 , Processed in 0.675685 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表