详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管

首页 > 科技

详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管

来源:音乐大烩菜 发布时间:2024-03-24 16:14

详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管

芯东西3月24日报道,当今全世界身价最高的两位华人,一位卖铲,一位卖水。

第一名是英伟达创始人兼CEO黄仁勋,靠给AI淘金者们卖GPU,把英伟达推上全球市值第三的宝座;另一位是农夫山泉创始人、董事长兼总经理钟睒睒,凭“大自然的搬运工”笑傲饮用水江湖。

▲在最新彭博亿万富豪榜中,黄仁勋是第17名 ,钟睒睒是第23名

当前,英伟达市值已经稳坐2万亿美元大关,与苹果的市值差距缩小到0.3万亿美元。

▲全球市值TOP10中,英伟达过去30天股价涨幅最大(图源:Companies Market Cap)

在本周英伟达GTC大会上,黄仁勋一本正经地说:“我们可以附带着卖热水。”

这可不是句玩笑话,黄仁勋是有数据依据的:英伟达DGX新机的液冷散热,液体入口温度是25℃,接近室温;出口温度升高到45℃,接近按摩浴缸的水温,流速是2L/s。

当然了,比起卖水,GPU算力才是英伟达手里的印钞机

人称“皮衣刀客”的黄仁勋,一贯具有极强的危机感和风险意识,永远在提前为未来铺路。再加上芯片行业是一个高风险高成本低容错的行业,一步走错,可能就会跌落神坛,满盘皆输。所以在AI算力需求空前爆发、一众强敌虎视眈眈的关键时刻,英伟达不敢在新品上有丝毫懈怠,必然会在短期内打出最大爆发,让对手们望尘莫及。

当竞争对手们还在以追赶英伟达旗舰GPU为目标时,黄仁勋已经站在next Level,捕捉到数据中心客户需求的痛点——单芯不顶事,真正顶事的是解决系统级性能和能效提升的挑战。

拿单个旗舰GPU比,英伟达的芯片确实配得上“核弹”称号,性能猛,功耗也高。但黄仁勋厉害在早就跳出芯片本身,不断向数据中心客户灌输“买得越多 省得越多”的理念,简而言之买英伟达的AI系统方案比其他方案更快更省钱。

从Blackwell架构设计到AI基础设施的技术布局,都能反映黄仁勋对未来市场需求和行业趋势的前瞻性判断:

1、摩尔定律带动性能提升越来越捉襟见肘,单die面积和晶体管快到极限,后续芯片迭代必须包括高带宽内存、Chiplet先进封装、片内互联等技术的创新组合。再加上片外互连等高性能通信的优化,共同构成了英伟达打造出专为万亿参数级生成式AI设计的系统的基础。

2、未来,数据中心将被视为AI工厂,在整个生命周期里,AI工厂的目标是产生收益。不同于消费级市场单卖显卡,数据中心市场是个系统级生意,单芯片峰值性能参考价值不大,把很多GPU组合成一个“巨型GPU”,使其在完成同等计算任务时耗费更少的卡、时间和电力,对客户才能带来更大的吸引力。

3、AI模型的规模和数据量将持续增长:未来会用多模态数据来训练更大的模型;世界模型将大行其道,学习掌握现实世界的物理规律和常识;借助合成数据生成技术,AI甚至能模仿人类的学习方式,联想、思考、彼此相互训练。英伟达的目标是不断降低与计算相关的成本和能耗。

4、高性能推理或生成将至关重要。云端运行的英伟达GPU可能有一半时间都被用于token生成,运行大量的生成式AI任务。这既需要提高吞吐量,以降低服务成本,又要提高交互速度以提高用户体验,一个GPU难以胜任,因此必须找到一种能在许多GPU上并行处理模型工作的方法。

一、最强AI芯片规格

详解

:最大功耗2700W,CUDA配置成谜

本周二,英伟达发布新一代Blackwell GPU架构,不仅刻意弱化了单芯片的存在感,而且没有明确GPU的代号,而是隐晦地称作“Blackwell GPU”。这使得被公认遥遥领先的Blackwell架构多少笼上了一抹神秘色彩。

在GTC大会现场,英伟达副总裁Ian Buck和高级副总裁Jonah Alben向智东西&芯东西等全球媒体进一步分享了关于Blackwell架构设计的背后思考。结合22页英伟达Blackwell架构技术简报,关于GB200超级芯片、HGX B200/B100、DGX超级计算机等的配置细节被进一步披露。

根据现有信息,全新Blackwell GPU没有采用最先进的3nm制程工艺,而是继续沿用4nm的定制增强版工艺台积电4NP,已知的芯片款式有3类——B100、B200、GB200超级芯片

B100不是新发布的主角,仅在HGX B100板卡中被提及。B200是重头戏,GB200又进一步把B200和1颗72核Grace CPU拼在一起。

B200有2080亿颗晶体管,超过H100(800亿颗晶体管)数量的两倍。英伟达没透露单个Blackwell GPU die的具体大小,只说是在reticle大小尺寸限制内。上一代单die面积为814mm²。由于不知道具体数字,不好计算B200在单位面积性能上的改进幅度。

英伟达通过NV-HBI高带宽接口,以10TB/s双向带宽将两个GPU die互联封装,让B200能像单芯片一样运行,不会因为通信损耗而损失性能,没有内存局部性问题,也没有缓存问题,能支持更高的L2缓存带宽。但英伟达并没有透露它具体采用了怎样的芯片封装策略。

前代GH200超级芯片是把1个H100和1个Grace CPU组合。而GB200超级芯片将2个Blackwell GPU和CPU组合,每个GPU的满配TDP达到1200W,使得整个超级芯片的TDP达到2700W(1200W x 2+300W)。

▲Blackwell GB200规格(图源:芯东西根据技术简报表格译成中文)

值得关注的是,Blackwell架构技术简报仅披露了Tensor核心数据,对CUDA核心数、Tensor核心数、向量算力等信息只字未提。除了FP64是稠密,其他数据格式都显示了稀疏算力。

相比之下,标准FP64 Tensor核心计算性能提升幅度不大,H100和H200是67TFLOPS,GB200超级芯片是90TFLOPS,比上一代提高34%。

一种可能的推测是Blackwell架构的设计全面偏向AI计算,对高性能计算的提升不明显。如果晶体管都用于堆Tensor核心,它的通用能力会变弱,更像个偏科的AI NPU。

由于采用相同的基础设施设计,从Hopper换用Blackwell主板就像推拉抽屉一样方便。

技术简报披露了Blackwell x86平台HGX B100、HGX B200的系统配置。HGX B200搭载8个B200,每个GPU的TDP为1000W;HGX B100搭载8个B100,每个GPU的TDP为700W

上一篇:消化不良就吃... 下一篇:GPU如何主宰...
猜你喜欢
热门阅读
同类推荐