12 国产AI还差多少个英伟达？

由于自身职业的原因，会经常接触到各行各业的资讯和商业计划书，但直觉告诉我，现在暂时还没到投资国产AI的时候。至于具体原因，我认为是不论在硬件层面的GPU，还是系统层面的大模型，国产AI还是跟国外存在着一定差距，而这种差距在短期内难以追赶。所以我在整个23年是处于观望状态去对待国产AI的投资。

CUDA生态的坎

24年年初，无意之间收到了壁仞科技的商业计划书，但公司管理层正值处于大变动的时候，公司的联合创始人相继先后离职。先撇开公司内部问题不说，我认为目前国产GPU、AI芯片公司还有一道短时间内难以翻越的大山，英伟达的CUDA生态平台。现有几乎所有从事AI工作的开发者都是CUDA的用户，而几乎所有的开源大模型都是基于英伟达的CUDA来实现并行加速。如果要实现平替，只能

通过指令翻译的方式兼容CUDA；但这会导致性能上的损耗和对CUDA兼容更新不及时的问题。
让开发者将现有代码迁移至新的GPU平台上；但面对现阶段开源大模型及应用进入井喷期，其迁移成本非常昂贵。

不论是那种方式，对于现有开发者来说并不是最优选择。这就导致了一个恶性的循环，形成了国产AI难发展、国产AI发展难的局面。

虽然像壁仞科技这种实力雄厚的公司前两年就实现了用于平替CUDA的壁仞SUPA平台的开发，但其核心还是离不开“兼容”和“”迁移“两大原则。

关于”翻译层“，这里有段小插曲。

在3月初的时候，英伟达突然在其CUDA的最终用户许可协议（EULA）中增加了”禁止在其他硬件平台上使用翻译层运行基于CUDA的软件“的警告。我综合了现有公开信息来看，虽然这条款实则上是警告AMD和英特尔支持的ZLUDA翻译层平台，但由于众多国产GPU制造商都在自家的平台上使用了”翻译层“，因此，这消息当时引起了不少国产GPU创业公司出来发澄清公告。¹

遥遥领先和鸿沟

五一节前，由于另外一个投资项目去了一趟深圳拜访了一个同行投资机构。其中聊到了关于目前国产GPU发展和与英伟达的差距时，在场的人员似乎都有一种有共识：华为的海思是中国最强，海思单个GPU 很强，但一旦要实现多个GPU互连时就不行了。 这该怎么理解呢？

实际上华为的海思和英伟达在GPU互连时，总算力的差距主要在于连接的带宽上。

英伟达的NVLink采用全网状拓扑，互连时GPU-to-GPU（双向）最大带宽可达到400GB/s；²
华为的HCCS采用对等拓扑，所以互连时 GPU-to-GPU （双向）最大带宽是56GB/s;³

下面这图是典型 8 张英伟达的A100 卡组成的全网状拓扑，使用了NVLink的双向带宽可达600GB/s。

An image to describe post

下面这图是采用了8张昇腾 910B GPU 卡组成的对等拓扑，互连带宽是392GB/s。
An image to describe post

最新A100/A800/H100/H800/910B/H200⁴ 的互连带宽对比：

	A800 (PCIe/SXM)	A100 (PCIe/SXM)	Huawei Ascend 910B	H800 (PCIe/SXM)	H100 (PCIe/SXM)	H200 (PCIe/SXM)
Year	2022	2020	2023	2022	2022	2024
Manufacturing	7nm	7nm	7+nm	4nm	4nm	4nm
Max Power	300/400 W	300/400 W	400 W		350/700 W	700W
GPU Mem	80G HBM2e	80G HBM2e	64G HBM2e	80G HBM3	80G HBM3	141GB HBM3e
GPU Mem BW		1935/2039 GB/s			2/3.35 TB/s	4.8 TB/s
GPU Interconnect (one-to-one max bw)	NVLINK 400GB/s	PCIe Gen4 64GB/s, NVLINK 600GB/s	HCCS 56GB/s	NVLINK 400GB/s	PCIe Gen5 128GB/s, NVLINK 900GB/s	PCIe Gen5 128GB/s, NVLINK 900 GB/s
GPU Interconnect (one-to-many total bw)	NVLINK 400GB/s	PCIe Gen4 64GB/s, NVLINK 600GB/s	HCCS 392GB/s	NVLINK 400GB/s	PCIe Gen5 128GB/s, NVLINK 900GB/s	PCIe Gen5 128GB/s, NVLINK 900 GB/s