← 返回每日学习

minimind:SwiGLU

2026-03-23

今日目标

学习内容

  • 《巴拉吉预言》

专注学习(对于最有价值的内容,保持专注,避免分散注意力)

  1. 外积 torch.outer 的规则
  2. rotate_half 的输出结果
  3. 为什么叫 “rotate_half”?
  4. RoPE 到底对 Q 和 K 做了什么事?
  5. 神经网络的基本操作是什么?
  6. 偏置b是什么
  7. 偏置 b 在大模型里到底有什么用?
  8. 线性变换的问题是什么?
  9. 激活函数的价值是什么?
  10. 激活函数ReLU的规则
  11. 激活函数在 Transformer 里的位置
  12. 常见激活函数对比
  13. ReLU丢失信息有什么问题
  14. ReLU 有缺陷,为什么当初还用它?
  15. SiLU怎么解决神经元死亡
  16. SwiGLU改进了什么
  17. 解释SwiGLU的代码
  18. 为什么倍数关系是 2.7
  19. SwiGLU变化特征
  20. 为什么要先升维再降维

收获与思考