标签:LLM
-
手撕大模型核心算子
从零实现大模型最常用的核心算子:GELU/SiLU/Sigmoid、Softmax、LayerNorm/RMSNorm、SelfAttention/MHA/KV Cache、RoPE、SwiGLU、MLE,以及反向传播。每个算子附面试重点和代码实现。
从零实现大模型最常用的核心算子:GELU/SiLU/Sigmoid、Softmax、LayerNorm/RMSNorm、SelfAttention/MHA/KV Cache、RoPE、SwiGLU、MLE,以及反向传播。每个算子附面试重点和代码实现。