Tom Yeh教授，拿DeepSeek为例，用Excel表格讲解其原理

sowang · 发表于 2025-2-6 20:47:39

科罗拉多大学的Tom Yeh教授，拿DeepSeek为例，用Excel表格讲解其原理，小白也能听懂。

视频总时长1个多小时，Tom Yeh用“Excel表格+公式”的形式，示范矩阵乘法、Softmax，以及各种激活函数。

整个讲解过程可谓是简洁直观，他不仅用颜色标注了Q、K、V矩阵怎么乘、怎么拼，还一步步演示了“从大维度压缩到小维度再回来”的过程，让人看一眼就明白怎么实现。

详细来说，视频内容主要包括——

1. 潜在注意力（Latent Attention）

- 这是对传统多头注意力（Multi-Head Attention）的一次“压缩”优化。
- 传统方式：每个词向量先变成Query、Key、Value，然后计算点积、Softmax，拼接后投影回去。
- 潜注意力额外增加了一步“降维”或“压缩”处理，大幅减少训练参数量，同时保持注意力机制的灵活性。

2. 专家混合层（Mixture of Experts, MoE）

- DeepSeek采用MoE，将前馈层拆分为多个“专家”网络，并行计算。
- 通过一个Router（路由器）决定每个Token激活哪些专家，类似“定制服务”。
- 优点：
- 模型容量极大，每个专家可以学习不同的特定功能。
- 计算时并非所有专家都对所有Token计算，因此不会导致计算量爆炸。

相信你只要跟着他的Excel思路走一遍，会对Transformer又有新的认识。

视频时间戳如下：

00:00 简介
02:00 路线图
03:48 输入
05:13 自注意力
26:40 多头注意力
33:11 潜在注意力
42:26 一位专家
51:14 四位专家
56:25 路由
1:03:28 可视化反向传播
1:05:14 RoPE
1:07:25 特殊挑战

Tom Yeh教授，拿DeepSeek为例，用Excel表格讲解其原理
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow

		自动登录	找回密码
密码			禁止注册