minimind:RMSNorm、RoPE
今日目标
学习内容
- 《微观经济学》
- 《巴拉吉预言》
- 《如何把话说清楚》
- Multi-Agents-Demos
- Cursor
- Claude Code SubAgents
- Claud Code Team Agents
- Crew AI
- LangGraph
- MetaGPT
专注学习(对于最有价值的内容,保持专注,避免分散注意力)
学习
- mean(x) 和 std(x) 是什么
- LayerNorm的完整过程
- LayerNorm和RMSNorm的差异
- 为什么Minimind选择RMSNorm
- ε的作用
- 读懂RMS代码
- 初始化
- _norm
- forward
- RMS在哪些地方使用了
- 对比Pre-Post和Post-Post
- 什么是 Learning Rate Warm-up?
- 为什么需要位置编码
- 绝对位置编码
- 为什么相对位置更重要
- RoPE 旋转位置编码
- 确认点:相对位置信息和绝对位置信息
- 为什么旋转公式只能处理2维
- 点积
- 相似度到底是语义关系还是位置关系?
- 旋转角度
- RoPE源码
- precompute_freqs_cis
- apply_rotary_pos_emb
复习
- RMSNorm
- TransformBlock内部长什么样
收获与思考
- 别争论,去构建