评论：漫谈DeepSeek及其背后的核心技术

内容简介：4×5A4×2B2×5CAA 这里的表示第t个Token的输入，表示KV的向下投影矩阵，将做降维压缩表示，实际得到就是要缓存的KV压缩隐向量；和是向上做升维的投影矩阵，将Token的压缩隐向量复原为原始KV矩阵； MLA 模块架构图具体的Attention计算推导过程可以参考：MLA的推导细节 2.2 训练推理核心技术 2.2.1 训练框架HAI-LLM...

用户评论