评论：DeepSeek中的多头潜在注意力（MLA）浅尝

内容简介：MLA是MHA的变体，因此先来看看MHA。 MHA（多头注意力） MHA通过将输入向量分割成多个并行的注意力“头”，每个头独立地计算注意力权重并产生输出，然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。将 Q Q Q分成了多个部分，每个部分进行注意力。比如 Q Q Q的形状 [ s e q , d i ] [seq,d_i] [seq,di]、...

用户评论