中文搜索引擎指南网
标题:
Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理
[打印本页]
作者:
sowang
时间:
6 天前
标题:
Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理
科罗拉多大学的Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理,小白也能听懂。
视频总时长1个多小时,Tom Yeh用“Excel表格+公式”的形式,示范矩阵乘法、Softmax,以及各种激活函数。
整个讲解过程可谓是简洁直观,他不仅用颜色标注了Q、K、V矩阵怎么乘、怎么拼,还一步步演示了“从大维度压缩到小维度再回来”的过程,让人看一眼就明白怎么实现。
详细来说,视频内容主要包括——
1. 潜在注意力(Latent Attention)
- 这是对传统多头注意力(Multi-Head Attention)的一次“压缩”优化。
- 传统方式:每个词向量先变成Query、Key、Value,然后计算点积、Softmax,拼接后投影回去。
- 潜注意力额外增加了一步“降维”或“压缩”处理,大幅减少训练参数量,同时保持注意力机制的灵活性。
2. 专家混合层(Mixture of Experts, MoE)
- DeepSeek采用MoE,将前馈层拆分为多个“专家”网络,并行计算。
- 通过一个Router(路由器)决定每个Token激活哪些专家,类似“定制服务”。
- 优点:
- 模型容量极大,每个专家可以学习不同的特定功能。
- 计算时并非所有专家都对所有Token计算,因此不会导致计算量爆炸。
相信你只要跟着他的Excel思路走一遍,会对Transformer又有新的认识。
视频时间戳如下:
00:00 简介
02:00 路线图
03:48 输入
05:13 自注意力
26:40 多头注意力
33:11 潜在注意力
42:26 一位专家
51:14 四位专家
56:25 路由
1:03:28 可视化反向传播
1:05:14 RoPE
1:07:25 特殊挑战
Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow
欢迎光临 中文搜索引擎指南网 (http://sowang.com/bbs/)
Powered by Discuz! X3.2