拆掉英伟达护城河？世界最快超算用3072块AMD GPU训完超万亿参数LLM

首页 > 科技

拆掉英伟达护城河？世界最快超算用3072块AMD GPU训完超万亿参数LLM

来源：NG视频发布时间：2024-01-14 01:55

拆掉英伟达护城河？世界最快超算用3072块AMD GPU训完超万亿参数LLM

新智元报道

编辑：润好困

【新智元导读】世界上最快超算集群Frontier，用8%的GPU训练出了一个万亿级规模的大模型，而且是在AMD硬件平台之上完成。研究人员将训练的细节和克服的困难写成了一篇论文，展示了如何用非英伟达的生态完成大模型训练的技术框架和细节。

用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。

位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 CPU。

最近，研究人员只使用了其中8%左右的GPU，就训练了一个GPT-3.5规模的模型。

研究人员成功地使用ROCM软件平台在AMD硬件上成功地突破了分布式训练模型的很多难点，建立了使用ROCM平台在AMD硬件上为大模型实现最先进的分布式训练算法和框架。

成功地在非英伟达和非CUDA平台上为高效训练LLM提供了可行的技术框架。

训练完成后，研究人员将在Frontier上训练大模型的经验的总结成了一篇论文，详细描述了期间遇到的挑战以及克服的困难。

论文链接：https://arxiv.org/abs/2312.12705

在研究人员看来，训练一万亿参数规模的LLM最为重大的挑战是所需的内存量——至少需要14TB的内存。

而单块GPU最大的内存只有64GB，这意味着需要并行使用多个AMD MI250X GPU才能完成训练。

而并行更多的GPU，对GPU之间的通信提出非常高的要求。如果不能有效地利用GPU之间的带宽通信，大部分的GPU计算资源都会被浪费。

具体来说，研究人员将Megatron-DeepSpeed分布式训练框架移植到Frontier上，以支持在AMD硬件和ROCM软件平台上进行高效的分布式训练。

研究人员将基于CUDA的代码转换为HIP代码，还预构建DeepSpeed ops以避免ROCM平台上的JIT编译错误，并且修改代码以接受主节点IP地址为参数进行PyTorch Distributed初始化。

在220亿参数模型上，Frontier的训练峰值吞吐量达到了38.38%，1750亿参数模型峰值吞吐量的36.14%，1万亿参数模型峰值吞吐量的31.96%。

训练一个1000B级别的模型，最终研究团队将缩放效率（scaling efficiency）做到了87%。同时，作为对比，研究人员还同时训练了另一个1750亿参数的模型，缩放效率也达到了89%。

另一方面，因为现在这样规模的模型训练都是在基于英伟达的硬件和CUDA生态中完成的，研究人员表示在AMD的GPU之上想要达到类似的训练效率和性能，还有很多工作需要做。

训练细节

GPT式模型结构和模型尺寸

Transformer模型由两个不同的部分组成，编码器块和解码器块。

编码块有助于捕捉非因果自注意力，即句子中的每个标记都能注意到左右两边的token。

另一方面，解码块有助于捕捉因果自注意，即一个token只能注意到序列中过去的标记。

上一篇：开家长发朋友... 下一篇：为什么陆游诗...

猜你喜欢

热门阅读

Win11任务栏怎么透明？

Win11任务栏怎么透明？

匿名

2022-09-08

同类推荐

2024郑州跨境电商大会开幕毕井泉龙永图出席并致辞

宠物养成

2024-05-14