英特尔把对抗英伟达的希望，寄托在了中国

来源：养生知多少发布时间：2023-07-13 10:10

英特尔把对抗英伟达的但愿，寄托在了中国

每一家芯片厂商都想要把“人工智能=英伟达芯片”这个公式推翻，英特尔尤其有必要这样做。7月11日，英伟达在北京发布了名为Gaudi 2深度学习加速器芯片，这是英特尔专为大模型练习和推理打造的专供中国市场的芯片。

英特尔的目标显而易见，它把对抗英伟达的但愿寄托在了中国市场。

一直以来，数据中心业务都是英特尔主要收入来源之一，它和英特尔在CPU领域的成功一道，在过去几十年构筑了英特尔最强的企业护城河，而这条宽且深的护城河，部门因为英伟达主导的人工智能浪潮，现在已不复存在。

最新的财政季度，包括个人电脑在内的客户计算事业部CCG和数据中心与人工智能事业部DCAI业务收入双降，同比都在38%左右，由此拖累了英特尔录得自2010年以来最低的季度收入（同比下降36%），更是30年来首次连续亏损。

CPU卖不动了大家早有预期，后疫情时代包括PC在内的个人电子消费品市场都陷入疲软，下行的半导体周期还叠加了摩尔定律的失效——英特尔最核心的CPU芯片制程工艺曾长时间停留在14nm阶段数年，以至于长久以来屈居第二的AMD通过异性架构的处理器实现反超。

但数据中心业务的下降就显得有些不同寻常，英特尔市场份额的萎缩同人工智能的高歌猛进形成了光鲜的对比——类似ChatGPT的大模型技术无论是练习仍是推理都需要庞大的数据中心算力来支撑，然而目前为止英特尔并没有从中得到任何利好，绝大部分的收入实际上都被英伟达拿走了。

跟着百模大战的展开，所有人都在如饥似渴地囤货英伟达显卡，在供不应求且小道消息满天飞的情况下，A800这样专供中国市场的“阉割版”芯片的售价在15天之内就涨了两万块钱，交货周期也从过去的1个月拉长到起码3个月。甚至很多经销商玩起了同奢侈品行业一样的“配货”规则——想要最新的算力卡，就得搭配采购其它积存的库存一起。

这就是目前市场火热的现状。人工智能是今年来普遍疲弱的科技行业少见的增长亮点，整个半导体行业都在受益于这场AI浪潮，有人预计到2030年整个芯片市场的收入将达到1.25万亿美元，而根据摩根士丹利的估计，四年内AI芯片和它的上下游联系关系领域的收入就将达到总收入的10%，也就是1250亿美元。

出于任何理由，英特尔都不会抛却这项传统上属于英特尔上风领域的业务，而这一次，英特尔把出手的地点选在了中国。

外科手术式精准出手

“市场想要备选方案。”英特尔公司执行副总裁、数据中心与人工智能事业部总经理Sandra Rivera在北京做出如上表述。

其中之一的意思是，有太多太多的言论有意无意把生成式AI同英伟达GPU绑定了起来，而英特尔并不认同这一点。基于英特尔产品组合的AI解决方案，用英特尔自己的话说，“为在关闭生态系统中寻求挣脱当前效率与规模限制的客户提供了极具竞争力的选择。”

现在选择来了。

在7月11日举办的流动上，Sandra Rivera 笑容满面地向媒体和合作伙伴展示了名为Gaudi 2的深度学习加速器芯片，英特尔宣称这是大规模部署AI的“更优解”。

Gaudi 2 采用台积电7nm制程，拥有24个可编程Tensor

核心，21个100 Gbps（RoCEv2）以太网接口用来内部互联，96GB HBM2E内存，总内存带宽达到了2.4TB/s。

Gaudi 2 的定位非常精准，就是针对大语言模型LLM和生成式AI。它是由英特尔2019年收购的以色列AI初创公司Habana Labs 设计的，尽管英特尔从未将其称之为GPU，但无疑把它看作是英伟达高端GPU A100和H100的竞品。

实际上，英特尔在现场展示了Gaudi 2 的强盛机能都在对标英伟达。好比针对Bert模型预练习，发布会现场的图表显示，Gaudi 2 的性能比英伟达A100 快1.7倍。Sandra Rivera称 Gaudi 2 不仅在机能上超过A100，还在最进步前辈模型上提供了约2倍于A100的性价比。

至于更进步前辈的H100，Habana Labs 首席运营官 Eitan Medina 直言，Gaudi 2 是为数不多能替换英伟达 H100 进行LLM练习的方案，在由MLCommons 发布的 MLPerf 3.0 基准测试中，Gaudi 2 是唯二能够进行 GPT3 练习的，另一个恰是 H100。

尽管在目前基于GPT-3模型，单个H100的机能领先于Gaudi 2 达3.6倍，但Eitan Medina 预计跟着在9月采用FP8软件，Gaudi 2 有望明显缩短练习时间，这样它在性价比方面就会超过H100。

中小模型推理方面，英特尔有已经进级到第四代的至强处理器，发布会现场英特尔演示了使用至强处理器的电脑使用stable diffusion天生图片，花费大约五秒钟。当模型规模晋升到千亿级别时，则有 Gaudi 2 来匡助大模型进行练习。

英特尔由此组成了一个产品组合。

这样的产品组合让英特尔笼盖了目前人工智能对算力需求的方方面面，而Gaudi 2作为英特尔在大模型领域布局的重要一环，精准聚焦于在机能和每瓦能耗两方面展开同英伟达的竞争——提供不弱的机能同时，保持了较高的性价比，这等同于在为客户省钱。

英特尔在服务器领域的丰硕经验让这场关于Gaudi 2的发布会很大程度上变成了针对重要客户的宣传，除了性价比之外，Gaudi 2还在规模化部署和开箱即用方面让人印象深刻。

同样是MLPerf 3.0基准测试，在GPT3模型上，把Gaudi 2从256个增加到384个，其扩展效果是近乎线性的（近线性95%），这意味着客户可以按照自己的需要扩展部署Gaudi 2芯片而几乎不用考虑其机能上的结构性损失。

至于开箱即用方面，Gaudi 2的SynapseAI软件套件集成了PyTorch、TensorFlow和DeepSpeed等主流人工智能开发框架，这意味着开发者可以非常迅速地在不同硬件平台上进行代码迁移。

有多迅速？Hugging Face首席布道师Julien

Simon给出的谜底是10分钟，这还包括了阅读文档的时间。

“最简朴的开发体验之一。”Julien

Simon如斯形容。

实际上，作为一款在去年就已经发布的芯片，Gaudi 2 在近一年的时间里一直在针对大模型需求进行软件方面的迭代，同去年11月提交MLPerf 3.0基准测试的数据比拟，Gaudi 2在Bert模型机能上进步了10%，英特尔宣称预计在第三季度发布对FP8软件支持的时候（目前是BF16），其机能还将有进一步显著晋升。

从机能、效率和迁移本钱、规模化扩展方面，Gaudi 2看上去都做好了预备。

要说还欠缺什么部门，那可能是中国市场的春风。

对中国市场的正视

Gaudi 1 就是在北京发布的，此番故地重游，英特尔为Gaudi 2中国区发布做了很多预备。

中国区发布的Gaudi 2比拟国际版，内部互联的以太网接口由24个减少到了21个，这显然是为了应对美国政府相关的合规要求。

不外英特尔数据中心与人工智能团体副总裁兼中国区总经理陈葆立表示，其整体机能基本上是一致的，特别是Gaudi

2在中国会首先搭载在浪潮信息的服务器上，根据Eitan Medina的说法，浪潮服务器的设计实际上没有用到所有的网口，也就说企业级客户在采购服务器（而不是Gaudi 2芯片本身）的时候，其机能损失很少。

英特尔的营收有近四分之一来自中国，实际上本周英特尔CEO Patrick Gelsinger 也在中国，尽管没有任何公然媒体行程。这已经是这位大马金刀改革英特尔的CEO今年内二度访华。

深耕中国市场让英特尔可以更好地同中国工业上下游的伙伴紧密合作。除了Gaudi 2芯片，发布会上一同亮相的还有浪潮服务器NF5698G7，它由8颗Gaudi 2和两颗至强芯片组成。浪潮信息高级副总裁、AI&HPC产品线总经理刘军宣称，其算法工程师实际体验后以为它的使用体验“和GPU上使用基本没有太大区别”，这意味着客户从迁移数据到练习负载的整个过程都将十分平顺。

上一篇：社保卡第一次... 下一篇：英特尔向英伟...