DeepSeek的创新是否威胁到英伟达的主导地位?

DeepSeek-R1发布引发国产AI芯片企业快速响应

自1月20日以来,DeepSeek-R1的发布在科技行业引起了广泛关注。截至2月8日,已有16家国产AI芯片企业宣布完成对DeepSeek模型的适配或上架服务。这不仅展示了中国AI产业链的技术实力和协同效应,也为未来的智能计算提供了更多可能性。

这些企业包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、灵汐科技、鲲云科技、希姆计算、算能、清微智能和芯动力。其中,华为昇腾的表现尤为突出,能够提供与全球高端GPU部署模型相媲美的效果;燧原科技则在庆阳、无锡、成都等智算中心实现了数万卡的快速部署。

创新1:MoE架构降低AI推理系统成本

DeepSeek提出的基于混合专家(MoE)的新架构以及FP8混合精度训练等先进技术,显著降低了每个专家模型所需的GPU性能要求。这意味着,原本需要昂贵硬件支持的AI推理系统,现在可以在价格相对低廉的设备上运行。例如,在大约120万元人民币的HGX H20服务器系统上,就能实现与OpenAI最新模型媲美的功能。此外,DeepSeek还提供了多个简化版本,能够在通用PC服务器(约10万元人民币)、台式PC(约3万元人民币)甚至笔记本电脑(约2万元人民币)上运行,为端侧智能的发展带来了新的机遇。

创新2:PTX指令语言绕开英伟达CUDA垄断

目前,大部分AI大模型企业如OpenAI和Meta都依赖英伟达提供的通用编程架构CUDA来访问GPU。虽然CUDA易于使用且不需要考虑GPU硬件细节,但它仅支持英伟达自家的GPU,形成了事实上的垄断。DeepSeek采用的底层硬件指令语言PTX提供了一种绕开这种垄断的方法。通过直接利用GPU的底层指令,DeepSeek不仅提升了灵活性,还促进了其他厂商的GPU兼容性。例如,昆仑芯的P800显卡对MoE架构的支持非常好,单机8卡即可运行拥有671亿参数的模型,进一步推动了DeepSeek在国内AI芯片上的快速适配。

风险提示

尽管DeepSeek带来了诸多创新和机遇,但仍然需要注意贸易摩擦和半导体周期波动等潜在风险。这些因素可能会影响技术的发展和应用,因此需要持续关注市场动态和技术进展。

相关文章