中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 761|回复: 0
打印 上一主题 下一主题

斯坦福 CS229 讲座:构建大型语言模型 (LLMs)

[复制链接]
跳转到指定楼层
1#
发表于 2024-12-30 20:07:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
讲座简要概述了如何构建类似 ChatGPT 的模型、包括前训练(语言建模)和后训练(SFT/RLHF)的基础知识。针对每个部分,讲座还探讨了数据收集、算法和评估方法方面的常见做法。

主讲人Yann Dubois 是斯坦福大学博士生,yanndubs.github.io/。他的研究重点是在资源稀缺的情况下提高人工智能的效率。

讲座中的几个关键知识点如下(补充一句,知识真是与时俱进的,几个月前说将矩阵运算从32位浮点数降至16位,可以显著提升计算速度并降低内存占用,现在Deepseek的报告一出来,已经降到8位了)。

***
1. "真正重要的是数据、评估和系统工程,而不是模型架构"

这个观点颠覆了学术界普遍关注的重点。在学术研究中,创新的模型架构常常受到最多关注,然而实践表明,数据处理的质量、评估方法的有效性和系统优化的程度才是决定LLM最终性能的关键因素。

讲者以Meta的Llama团队为例说明了这一点,在约70人的团队中,有15人专门负责数据相关工作,这种人力资源的分配正反映了数据处理在整个开发流程中的重要地位。

通过实践经验,团队发现即便使用相同的Transformer架构,通过优化数据质量、改进评估方法和加强系统工程,都能获得显著的性能提升。这种认识启发我们重新思考LLM开发中的资源分配策略,建议将更多注意力投向这些关键环节。

2. "数据预处理流水线的挑战:从原始网络数据到高质量训练语料“

处理网络数据的复杂性远超想象。当前的互联网包含约2500亿个网页,总计接近1PB的数据。将这些原始数据转化为可用的训练语料,需要一个复杂的处理流水线。

首先是提取阶段,需要从HTML中准确提取有意义的文本内容,这个看似简单的任务实则充满挑战,例如数学公式的正确解析就需要专门的处理方案。

接下来是净化阶段,需要过滤不良内容和个人敏感信息。去重也是一个关键步骤,不仅要处理完全重复的内容,还要识别不同URL下实质相同的内容。再之后是质量评估,需要通过启发式规则和机器学习模型对内容进行分类和加权。

最终,只有经过层层筛选的极小部分数据才会被用于训练。每一个环节都需要细致的工程处理和持续的优化改进。

3. "后训练优化的双重范式:SFT和RLHF"

在预训练模型的基础上,要将模型转化为实用的AI助手,需要经过两个关键的优化阶段。第一个阶段是监督微调(SFT)。这一阶段的一个惊人发现是,只需要2000-5000条高质量的人工标注数据就能取得显著效果。

讲者解释说,这是因为SFT主要是教会模型"如何回答",而不是学习新知识。模型在预训练阶段已经获取了广泛的知识,SFT更像是教会模型一种特定的表达方式。

第二个阶段是基于人类反馈的强化学习(RLHF)。这一阶段首先需要收集人类对模型不同输出的偏好数据,然后训练一个奖励模型来量化输出质量。最后使用PPO或者更新的DPO等算法来优化模型行为。这种两阶段方法是ChatGPT等对话模型的关键突破,它使模型能够生成更符合人类预期的回答。讲者特别指出,DPO算法的提出极大简化了实现复杂度,使得开源社区也能实现高质量的模型对齐。

4. "大语言模型的缩放法则:计算资源分配的科学"

在大语言模型领域,研究者们发现了一个重要规律:模型性能的提升遵循可预测的缩放法则。具体来说,当增加计算资源时,模型性能的提升呈现出对数线性关系。这

种规律不仅适用于计算资源,在模型参数量和训练数据量方面也观察到类似的缩放效应。这一发现具有重要的实践意义,因为它让我们能够科学地规划资源分配。

通过大量实验,研究人员确定了最优的训练配置:每个模型参数大约需要对应20个训练token。不过,当考虑到推理阶段的计算成本时,这个比例可能会提高到1:150。讲者指出,这些发现为工程实践提供了重要指导,帮助团队在有限的计算资源下做出最优的架构选择。

5. "系统优化的关键:降低精度与算子融合"

在系统优化层面,讲者详细介绍了两个具有重大实践价值的技术。第一个是低精度计算技术。通过将矩阵运算从32位浮点数降至16位,可以显著提升计算速度并降低内存占用。

这里有一个精妙的平衡:虽然计算过程使用16位精度,但模型权重仍保持在32位,以确保更新的准确性。这种策略在保证模型质量的同时,大幅提升了训练效率。

第二个关键技术是算子融合。在传统实现中,每个操作都需要与GPU内存进行数据交互,这种频繁的数据移动严重影响了性能。算子融合技术通过将多个操作合并处理,显著减少了内存访问次数。



斯坦福 CS229 讲座:构建大型语言模型 (LLMs)
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2025-4-5 06:38 , Processed in 0.186551 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表