← 返回每日学习

minimind:Attention、Causal Mask

2026-03-24

今日目标

学习内容

  • 《从0到1》

专注学习(对于最有价值的内容,保持专注,避免分散注意力)

学习

  1. FFN
    1. FFN vs Attention 分别做了什么
    2. FFN和SwiGLU的关系
  2. Attention
    1. 为什么需要 Attention
    2. Attention 的 Q、K、V 是什么
    3. Q、K、V 从哪来?
    4. 为什么叫 Self Attention
  3. Self-Attention 流程
  4. Causal Mask
    1. 如何解决信息泄露
    2. 为什么叫 Causal?
    3. 哪些模型用 Causal Mask?
    4. 代码实现

复习

  1. RoPE是怎么做完整旋转的
  2. 梳理了3-23的目录结构
  3. 删除了不必要的解释内容
  4. SwiGLU
    1. 平滑函数silu
    2. 线形变换liner
    3. forward

收获与思考

  • AI时代,获取信息很容易,筛选出关键信息的能力很重要,关注真正的重点

  • 到家打开门之后,第一时间拿出mac,开始学习

  • 只是存在、只是行动,在此时只有平和的宁静,无关于外在

  • 别关注时间,关注本心,否则就会忧虑