内容简介:4×5A4×2B2×5CAA 这里的表示第t个Token的输入,表示KV的向下投影矩阵,将做降维压缩表示,实际得到就是要缓存的KV压缩隐向量;和是向上做升维的投影矩阵,将Token的压缩隐向量复原为原始KV矩阵;  MLA 模块架构图 具体的Attention计算推导过程可以参考:MLA的推导细节 2.2 训练推理核心技术   2.2.1 训练框架HAI-LLM...
用户评论
推荐服务