← 返回每日学习

minimind:理解模型架构、微观经济学

2026-03-21

今日目标

学习内容

  • 英语学习
  • 阅读《微观经济学》

专注学习(对于最有价值的内容,保持专注,避免分散注意力)

学习

  1. Weight Tying 到底怎么共享的?
  2. 大模型不用 Weight Tying 的原因
  3. Transformer Decoder-Only全局鸟瞰
  4. 一个Transformer Block内部长什么样
  5. RMSNorm

收获与思考

思考

  1. 精简表达,输出最核心的信息
  2. 从当下优化,保留过去,避免繁琐的同步
  3. 别关注时间,关注愿景

收获