[fix] fix formula error

AndSonder · AndSonder · commit e72f1a1fdf09 · 2025-04-06T15:13:04.000+08:00
diff --git a/docs/17_flash_attn/01_flash_attn_v1_part1.md b/docs/17_flash_attn/01_flash_attn_v1_part1.md
@@ -78,25 +78,25 @@ $$
 这里我们以一个最简单的例子来说明更新的过程。
 
 
-我们以 **序列长度 $ N = 4 $**、**特征维度 $ d = 2 $** 为例，将输入矩阵 $\mathbf{Q}, \mathbf{K}, \mathbf{V}$ 均分为 **2 块**，展示 FlashAttention 的分块计算和流式更新过程。假设：
-- $\mathbf{Q} \in \mathbb{R}^{4 \times 2}$，分为 2 块：$\mathbf{Q}_1 \in \mathbb{R}^{2 \times 2}$, $\mathbf{Q}_2 \in \mathbb{R}^{2 \times 2}$（每块行数 $ B_r = 2 $）。
-- $\mathbf{K}, \mathbf{V} \in \mathbb{R}^{4 \times 2}$，分为 2 块：$\mathbf{K}_1, \mathbf{V}_1 \in \mathbb{R}^{2 \times 2}$, $\mathbf{K}_2, \mathbf{V}_2 \in \mathbb{R}^{2 \times 2}$（每块行数 $ B_c = 2 $）。
+我们以 **序列长度 $ N = 4 $ 、特征维度 $ d = 2  $为例**，将输入矩阵 $\mathbf{Q}, \mathbf{K}, \mathbf{V}$ 均分为 **2 块**，展示 FlashAttention 的分块计算和流式更新过程。假设：
+- $\mathbf{Q} \in \mathbb{R}^{4 \times 2}$，分为 2 块：$\mathbf{Q}_1 \in \mathbb{R}^{2 \times 2}$, $\mathbf{Q}_2 \in \mathbb{R}^{2 \times 2}$（每块行数 $ B_r = 2 $ ）。
+- $\mathbf{K}, \mathbf{V} \in \mathbb{R}^{4 \times 2}$，分为 2 块：$\mathbf{K}_1, \mathbf{V}_1 \in \mathbb{R}^{2 \times 2}$, $\mathbf{K}_2, \mathbf{V}_2 \in \mathbb{R}^{2 \times 2}$（每块行数 $ B_c = 2 $ ）。
 
 初始状态下：
 - 输出矩阵 $\mathbf{O} = \begin{bmatrix} 0 & 0 \\ 0 & 0 \\ 0 & 0 \\ 0 & 0 \end{bmatrix}$。
 - 全局统计量：$\ell = [0, 0, 0, 0]^T$, $m = [-\infty, -\infty, -\infty, -\infty]^T$。
 
 ---
 
-**步骤 1：外层循环 $ j=1 $，处理块 $\mathbf{K}_1, \mathbf{V}_1$ **
+**步骤 1：外层循环 $ j=1 $，处理块 $\mathbf{K}_1$ , $\mathbf{V}_1$ :**
 
-1. **加载 $\mathbf{K}_1, \mathbf{V}_1$ 到 SRAM**：
+1. **加载 $\mathbf{K}_1$, $\mathbf{V}_1$ 到 SRAM**：
 
     $$
     \mathbf{K}_1 = \begin{bmatrix} k_{11} & k_{12} \\ k_{21} & k_{22} \end{bmatrix}, \quad \mathbf{V}_1 = \begin{bmatrix} v_{11} & v_{12} \\ v_{21} & v_{22} \end{bmatrix}
     $$
 
-2. **内层循环 $ i=1 $，处理块 $\mathbf{Q}_1$ **：
+2. **内层循环 $i=1$，处理块 $\mathbf{Q}_1$ ：**
    - **加载数据**：
      $$
      \mathbf{Q}_1 = \begin{bmatrix} q_{11} & q_{12} \\ q_{21} & q_{22} \end{bmatrix}, \quad \mathbf{O}_1 = \begin{bmatrix} 0 & 0 \\ 0 & 0 \end{bmatrix}, \quad \ell_1 = [0, 0]^T, \quad m_1 = [-\infty, -\infty]^T
@@ -118,7 +118,7 @@ $$
      $$
    - **写回 HBM**：更新后的 $\mathbf{O}_1$ 对应前两行，$\ell_1$ 和 $m_1$ 同步更新。
 
-3. **内层循环 $ i=2 $，处理块 $\mathbf{Q}_2$**：
+3. **内层循环 $i=2$，处理块 $\mathbf{Q}_2$ ：**
    - 类似地，加载 $\mathbf{Q}_2 = \begin{bmatrix} q_{31} & q_{32} \\ q_{41} & q_{42} \end{bmatrix}$，计算 $\mathbf{S}_{21} = \mathbf{Q}_2 \mathbf{K}_1^T$，更新后两行 $\mathbf{O}_2$。
 
 
@@ -129,7 +129,7 @@ $$
    \mathbf{K}_2 = \begin{bmatrix} k_{31} & k_{32} \\ k_{41} & k_{42} \end{bmatrix}, \quad \mathbf{V}_2 = \begin{bmatrix} v_{31} & v_{32} \\ v_{41} & v_{42} \end{bmatrix}
    $$
 
-2. **内层循环 $ i=1 $，处理块 $\mathbf{Q}_1$**：
+2. **内层循环 $ i=1 $，处理块 $\mathbf{Q}_1$ ：**
    - **加载数据**：当前 $\mathbf{O}_1$ 已包含来自 $\mathbf{V}_1$ 的贡献。
    - **计算局部注意力分数**：
      $$
@@ -142,12 +142,10 @@ $$
      $$
    - **结果等价于全局 Softmax**：最终 $\mathbf{O}_1$ 为前两行注意力结果的加权和。
 
-3. **内层循环 $ i=2 $，处理块 $\mathbf{Q}_2$ **：
+3. **内层循环 $ i=2 $，处理块 $\mathbf{Q}_2$ ：**
    - 类似地，计算 $\mathbf{S}_{22} = \mathbf{Q}_2 \mathbf{K}_2^T$，更新后两行 $\mathbf{O}_2$。
 
 
-
-
 通过这种分阶段、分块处理的方式，FlashAttention 在不牺牲计算精度的前提下，显著提升了注意力机制的效率，成为处理长序列任务的利器。