minimind:理解模型架构、微观经济学 2026-03-21 今日目标 学习内容 英语学习 阅读《微观经济学》 专注学习(对于最有价值的内容,保持专注,避免分散注意力) 学习 Weight Tying 到底怎么共享的? 大模型不用 Weight Tying 的原因 Transformer Decoder-Only全局鸟瞰 一个Transformer Block内部长什么样 RMSNorm 收获与思考 思考 精简表达,输出最核心的信息 从当下优化,保留过去,避免繁琐的同步 别关注时间,关注愿景 收获