minimind:SwiGLU
今日目标
学习内容
- 《巴拉吉预言》
专注学习(对于最有价值的内容,保持专注,避免分散注意力)
- 外积
torch.outer的规则 -
rotate_half的输出结果 - 为什么叫 “rotate_half”?
- RoPE 到底对 Q 和 K 做了什么事?
- 神经网络的基本操作是什么?
- 偏置b是什么
- 偏置
b在大模型里到底有什么用? - 线性变换的问题是什么?
- 激活函数的价值是什么?
- 激活函数ReLU的规则
- 激活函数在 Transformer 里的位置
- 常见激活函数对比
- ReLU丢失信息有什么问题
- ReLU 有缺陷,为什么当初还用它?
- SiLU怎么解决神经元死亡
- SwiGLU改进了什么
- 解释SwiGLU的代码
- 为什么倍数关系是 2.7
- SwiGLU变化特征
- 为什么要先升维再降维