← 返回每日学习

minimind:RMSNorm、RoPE

2026-03-22

今日目标

学习内容

  • 《微观经济学》
  • 《巴拉吉预言》
  • 《如何把话说清楚》
  • Multi-Agents-Demos
    • Cursor
    • Claude Code SubAgents
    • Claud Code Team Agents
    • Crew AI
    • LangGraph
    • MetaGPT

专注学习(对于最有价值的内容,保持专注,避免分散注意力)

学习

  1. mean(x) 和 std(x) 是什么
  2. LayerNorm的完整过程
  3. LayerNorm和RMSNorm的差异
  4. 为什么Minimind选择RMSNorm
  5. ε的作用
  6. 读懂RMS代码
    1. 初始化
    2. _norm
    3. forward
  7. RMS在哪些地方使用了
  8. 对比Pre-Post和Post-Post
  9. 什么是 Learning Rate Warm-up?
  10. 为什么需要位置编码
  11. 绝对位置编码
  12. 为什么相对位置更重要
  13. RoPE 旋转位置编码
  14. 确认点:相对位置信息和绝对位置信息
  15. 为什么旋转公式只能处理2维
  16. 点积
  17. 相似度到底是语义关系还是位置关系?
  18. 旋转角度
  19. RoPE源码
    1. precompute_freqs_cis
    2. apply_rotary_pos_emb

复习

  1. RMSNorm
  2. TransformBlock内部长什么样

收获与思考

  1. 别争论,去构建