深度求索(DeepSeek)提出的 多头潜在注意力(Multi-Head Latent Attention, MLA) 是一种改进的注意力机制,旨在提升传统 Transformer 中多头注意力(MHA)的效率与表达能力。其核心思想是通过引入潜在空间和分组机制,在减少计算复杂度的同时,捕捉更丰富的语义关系。
MLA 的核心设计
潜在空间映射:
与传统 MHA 直接计算所有 token 的交互不同,MLA 将输入序列映射到一个低维潜在空间(Latent Space),在该空间中建模注意力交互。
通过线性投影将 Key 和 Value 转换为潜在向量(Latent Vectors),显著减少计算量,尤其适用于长序列场景。
分组多头机制:
将多头注意力分成若干组(Group),每组共享一个潜在空间映射参数。
例如,若总头数为 �H,分为 �G 组,则每组包含 �/�H/G 个头。这种分组策略平衡了参数效率与多视角建模能力。
动态权重分配:
每组通过潜在空间生成动态权重,调整不同头对输入的关注模式,使模型灵活适应不同粒度的语义特征(如局部依赖与全局依赖)。
MLA 的优势
计算效率:
潜在空间的低维特性降低了 Key-Value 矩阵的维度,将复杂度从 �(�2)O(N2) 降至 �(�⋅�)O(N⋅L),其中 �L 是潜在空间维度(�≪�L≪N)。
分组机制进一步减少参数,缓解过拟合风险。
表达能力增强:
潜在空间能捕捉隐含的全局模式,分组机制允许不同头关注不同层次的语义信息(如词级、短语级、句级特征),提升模型对复杂依赖的建模能力。
兼容性与扩展性:
可作为传统 MHA 的替代模块,无缝集成到 Transformer 架构中,适用于语言模型、长文本理解等任务。
与传统 MHA 的对比
特性传统多头注意力(MHA)多头潜在注意力(MLA)
计算复杂度 �(�2⋅�)O(N2⋅H) �(�⋅�⋅�)O(N⋅L⋅G)(�,�≪�L,G≪H) 
参数数量 高(每个头独立参数) 低(分组共享参数) 
注意力范围 显式全交互 潜在空间隐式建模 
适用场景 短序列、高算力环境 长序列、资源受限场景 
应用场景
长文本建模:如文档理解、代码生成,MLA 可高效处理数千 token 的输入。
低资源设备:减少计算量和内存占用,适合移动端或边缘计算。
多粒度语义任务:如问答、摘要,分组机制能同时捕捉局部细节与全局结构。
总结
MLA 通过潜在空间与分组设计的结合,在保持注意力机制核心优势的同时,显著提升了效率与灵活性。这一改进尤其适用于对长序列处理和计算资源敏感的场景,是深度求索在高效 Transformer 架构探索中的重要创新。