minimind:Attention、Causal Mask
今日目标
学习内容
- 《从0到1》
专注学习(对于最有价值的内容,保持专注,避免分散注意力)
学习
- FFN
- FFN vs Attention 分别做了什么
- FFN和SwiGLU的关系
- Attention
- 为什么需要 Attention
- Attention 的 Q、K、V 是什么
- Q、K、V 从哪来?
- 为什么叫 Self Attention
- Self-Attention 流程
- Causal Mask
- 如何解决信息泄露
- 为什么叫 Causal?
- 哪些模型用 Causal Mask?
- 代码实现
复习
- RoPE是怎么做完整旋转的
- 梳理了3-23的目录结构
- 删除了不必要的解释内容
- SwiGLU
- 平滑函数silu
- 线形变换liner
- forward
收获与思考
-
AI时代,获取信息很容易,筛选出关键信息的能力很重要,关注真正的重点
-
到家打开门之后,第一时间拿出mac,开始学习
-
只是存在、只是行动,在此时只有平和的宁静,无关于外在
-
别关注时间,关注本心,否则就会忧虑