中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 92|回复: 0
打印 上一主题 下一主题

Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理

[复制链接]
跳转到指定楼层
1#
发表于 6 天前 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
科罗拉多大学的Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理,小白也能听懂。

视频总时长1个多小时,Tom Yeh用“Excel表格+公式”的形式,示范矩阵乘法、Softmax,以及各种激活函数。

整个讲解过程可谓是简洁直观,他不仅用颜色标注了Q、K、V矩阵怎么乘、怎么拼,还一步步演示了“从大维度压缩到小维度再回来”的过程,让人看一眼就明白怎么实现。

详细来说,视频内容主要包括——

1. 潜在注意力(Latent Attention)

- 这是对传统多头注意力(Multi-Head Attention)的一次“压缩”优化。
- 传统方式:每个词向量先变成Query、Key、Value,然后计算点积、Softmax,拼接后投影回去。
- 潜注意力额外增加了一步“降维”或“压缩”处理,大幅减少训练参数量,同时保持注意力机制的灵活性。

2. 专家混合层(Mixture of Experts, MoE)

- DeepSeek采用MoE,将前馈层拆分为多个“专家”网络,并行计算。
- 通过一个Router(路由器)决定每个Token激活哪些专家,类似“定制服务”。
- 优点:
- 模型容量极大,每个专家可以学习不同的特定功能。
- 计算时并非所有专家都对所有Token计算,因此不会导致计算量爆炸。

相信你只要跟着他的Excel思路走一遍,会对Transformer又有新的认识。

视频时间戳如下:

00:00 简介
02:00 路线图
03:48 输入
05:13 自注意力
26:40 多头注意力
33:11 潜在注意力
42:26 一位专家
51:14 四位专家
56:25 路由
1:03:28 可视化反向传播
1:05:14 RoPE
1:07:25 特殊挑战



Tom Yeh教授,拿DeepSeek为例,用Excel表格讲解其原理
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2025-2-12 14:53 , Processed in 0.225791 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表