详解最强AI芯片架构：英伟达Blackwell GPU究竟牛在哪？现场对话技术高管

来源：音乐大烩菜发布时间：2024-03-24 16:14

详解最强AI芯片架构：英伟达Blackwell GPU究竟牛在哪？现场对话技术高管

芯东西3月24日报道，当今全世界身价最高的两位华人，一位卖铲，一位卖水。

第一名是英伟达创始人兼CEO黄仁勋，靠给AI淘金者们卖GPU，把英伟达推上全球市值第三的宝座；另一位是农夫山泉创始人、董事长兼总经理钟睒睒，凭“大自然的搬运工”笑傲饮用水江湖。

▲在最新彭博亿万富豪榜中，黄仁勋是第17名，钟睒睒是第23名

当前，英伟达市值已经稳坐2万亿美元大关，与苹果的市值差距缩小到0.3万亿美元。

▲全球市值TOP10中，英伟达过去30天股价涨幅最大（图源：Companies Market Cap）

在本周英伟达GTC大会上，黄仁勋一本正经地说：“我们可以附带着卖热水。”

这可不是句玩笑话，黄仁勋是有数据依据的：英伟达DGX新机的液冷散热，液体入口温度是25℃，接近室温；出口温度升高到45℃，接近按摩浴缸的水温，流速是2L/s。

当然了，比起卖水，GPU算力才是英伟达手里的印钞机。

人称“皮衣刀客”的黄仁勋，一贯具有极强的危机感和风险意识，永远在提前为未来铺路。再加上芯片行业是一个高风险高成本低容错的行业，一步走错，可能就会跌落神坛，满盘皆输。所以在AI算力需求空前爆发、一众强敌虎视眈眈的关键时刻，英伟达不敢在新品上有丝毫懈怠，必然会在短期内打出最大爆发，让对手们望尘莫及。

当竞争对手们还在以追赶英伟达旗舰GPU为目标时，黄仁勋已经站在next Level，捕捉到数据中心客户需求的痛点——单芯不顶事，真正顶事的是解决系统级性能和能效提升的挑战。

拿单个旗舰GPU比，英伟达的芯片确实配得上“核弹”称号，性能猛，功耗也高。但黄仁勋厉害在早就跳出芯片本身，不断向数据中心客户灌输“买得越多省得越多”的理念，简而言之买英伟达的AI系统方案比其他方案更快更省钱。

从Blackwell架构设计到AI基础设施的技术布局，都能反映黄仁勋对未来市场需求和行业趋势的前瞻性判断：

1、摩尔定律带动性能提升越来越捉襟见肘，单die面积和晶体管快到极限，后续芯片迭代必须包括高带宽内存、Chiplet先进封装、片内互联等技术的创新组合。再加上片外互连等高性能通信的优化，共同构成了英伟达打造出专为万亿参数级生成式AI设计的系统的基础。

2、未来，数据中心将被视为AI工厂，在整个生命周期里，AI工厂的目标是产生收益。不同于消费级市场单卖显卡，数据中心市场是个系统级生意，单芯片峰值性能参考价值不大，把很多GPU组合成一个“巨型GPU”，使其在完成同等计算任务时耗费更少的卡、时间和电力，对客户才能带来更大的吸引力。

3、AI模型的规模和数据量将持续增长：未来会用多模态数据来训练更大的模型；世界模型将大行其道，学习掌握现实世界的物理规律和常识；借助合成数据生成技术，AI甚至能模仿人类的学习方式，联想、思考、彼此相互训练。英伟达的目标是不断降低与计算相关的成本和能耗。

4、高性能推理或生成将至关重要。云端运行的英伟达GPU可能有一半时间都被用于token生成，运行大量的生成式AI任务。这既需要提高吞吐量，以降低服务成本，又要提高交互速度以提高用户体验，一个GPU难以胜任，因此必须找到一种能在许多GPU上并行处理模型工作的方法。

一、最强AI芯片规格

详解

：最大功耗2700W，CUDA配置成谜

本周二，英伟达发布新一代Blackwell GPU架构，不仅刻意弱化了单芯片的存在感，而且没有明确GPU的代号，而是隐晦地称作“Blackwell GPU”。这使得被公认遥遥领先的Blackwell架构多少笼上了一抹神秘色彩。

在GTC大会现场，英伟达副总裁Ian Buck和高级副总裁Jonah Alben向智东西&芯东西等全球媒体进一步分享了关于Blackwell架构设计的背后思考。结合22页英伟达Blackwell架构技术简报，关于GB200超级芯片、HGX B200/B100、DGX超级计算机等的配置细节被进一步披露。

根据现有信息，全新Blackwell GPU没有采用最先进的3nm制程工艺，而是继续沿用4nm的定制增强版工艺台积电4NP，已知的芯片款式有3类——B100、B200、GB200超级芯片。

B100不是新发布的主角，仅在HGX B100板卡中被提及。B200是重头戏，GB200又进一步把B200和1颗72核Grace CPU拼在一起。

B200有2080亿颗晶体管，超过H100（800亿颗晶体管）数量的两倍。英伟达没透露单个Blackwell GPU die的具体大小，只说是在reticle大小尺寸限制内。上一代单die面积为814mm²。由于不知道具体数字，不好计算B200在单位面积性能上的改进幅度。

英伟达通过NV-HBI高带宽接口，以10TB/s双向带宽将两个GPU die互联封装，让B200能像单芯片一样运行，不会因为通信损耗而损失性能，没有内存局部性问题，也没有缓存问题，能支持更高的L2缓存带宽。但英伟达并没有透露它具体采用了怎样的芯片封装策略。

前代GH200超级芯片是把1个H100和1个Grace CPU组合。而GB200超级芯片将2个Blackwell GPU和CPU组合，每个GPU的满配TDP达到1200W，使得整个超级芯片的TDP达到2700W（1200W x 2+300W）。

▲Blackwell GB200规格（图源：芯东西根据技术简报表格译成中文）

值得关注的是，Blackwell架构技术简报仅披露了Tensor核心数据，对CUDA核心数、Tensor核心数、向量算力等信息只字未提。除了FP64是稠密，其他数据格式都显示了稀疏算力。

相比之下，标准FP64 Tensor核心计算性能提升幅度不大，H100和H200是67TFLOPS，GB200超级芯片是90TFLOPS，比上一代提高34%。

一种可能的推测是Blackwell架构的设计全面偏向AI计算，对高性能计算的提升不明显。如果晶体管都用于堆Tensor核心，它的通用能力会变弱，更像个偏科的AI NPU。

由于采用相同的基础设施设计，从Hopper换用Blackwell主板就像推拉抽屉一样方便。

技术简报披露了Blackwell x86平台HGX B100、HGX B200的系统配置。HGX B200搭载8个B200，每个GPU的TDP为1000W；HGX B100搭载8个B100，每个GPU的TDP为700W。

上一篇：消化不良就吃... 下一篇：GPU如何主宰...