陈 相 马渊博 江绍华 关皓元 | 从Deepseek看人工智能芯片发展

发布时间:2025-11-07 阅读数:2142 来源:广东省科学技术情报研究所

摘要:DeepSeek 陆续推出 DeepSeek-V 系列、R1 系列、Janux 模型,采用 MLA(多头潜在注意力)、MTP(多令牌预测)、稀疏的MoE(混合专家架构)与 FP8 混合精度训练等技术,以极高的性价比大幅降低模型门槛,并从单模型逐渐向多模态迈进,引发全球的广泛关注。