GPU如何主宰人工智能和计算

首页 > 科技

GPU如何主宰人工智能和计算

来源:生活里的创意 发布时间:2024-03-24 16:23

GPU如何主宰人工智能和计算

​本文由半导体产业纵横(ID:ICVIEWS)编译自TechSpot

GPU持续进化。

三十年前,CPU和其他专用处理器处理几乎所有计算任务。那个时代的显卡可以加速Windows和应用程序中2D形状的绘制,但没有其他用途。

快进到今天,GPU已经成为行业中最主要的芯片之一。

如今,GPU不再仅仅是用于图形处理的设备——实际上机器学习和高性能计算已经严重依赖于这个看似微不足道的GPU的处理能力。让我们一起探讨这一芯片是如何从一个朴素的像素处理器演变成具有强大浮点计算能力的核心设备的。

起初CPU主宰一切

让我们回到20世纪90年代末。高性能计算领域,涵盖了超级计算机上的科学研究、标准服务器上的数据处理以及工作站上的工程和设计任务,完全依赖于两种类型的CPU:1)专为某一特定目的而设计的专用处理器;2)来自AMD、IBM或英特尔的现成芯片。

ASCI红色超级计算机是1997年最强大的超级计算机之一,由9,632颗英特尔奔腾II Overdrive处理器组成(如下图所示)。每个处理器单元运行在333 MHz的频率下,系统的理论峰值计算性能达到了超过3.2 TFLOPS(每秒万亿次浮点运算)。

来源:维基百科

在本文中,我们经常会提及TFLOPS,因此有必要花一些时间来解释一下它的含义。在计算机科学中,浮点数(floating points,简称浮点)是表示非整数值的数据类型,例如6.2815或0.0044。整数值常用于进行控制计算机及其上运行的任何软件所需的计算。

浮点数对于精度至关重要的情况至关重要,尤其是与科学或工程相关的任何事物。即使是一个简单的计算,比如求圆的周长,也至少涉及到一个浮点数值。

多年来,CPU一直拥有用于在整数和浮点数上执行逻辑运算的单独电路。在前文提到的奔腾II过载版中,它可以在每个时钟周期内执行一个基本的浮点操作(乘法或加法)。理论上,这就是为什么ASCI Red的浮点峰值性能为9,632个CPU x 3.33亿个时钟周期 x 1操作/周期 = 3,207,456百万FLOPS。

这些数据是基于理想条件(例如,使用最简单的指令处理适合缓存的数据),在现实中很难实现。然而,它们为评估系统潜在性能提供了一个很好的参考。

其他超级计算机也拥有类似数量的标准处理器——位于劳伦斯利弗莫尔国家实验室的蓝色太平洋使用了5808个IBM的PowerPC 604e芯片,洛斯阿拉莫斯国家实验室的蓝色山脉(见上图)容纳了6144个MIPS Technologies R1000芯片。

要达到太浮点运算级别,需要数千个CPU,以及大量的RAM和硬盘存储作为支持。因为这些设备的数学需求如此之高,直到现在这种情况仍然存在。

当我们在学校的物理、化学和其他学科中第一次接触方程式时,一切都是一维的。换句话说,我们对距离、速度、质量、时间等使用单一的数字。然而,为了准确地建模和模拟现象,需要更多的维度,数学进入了向量、矩阵和张量的领域。

这些在数学中被视为单一实体,但包含多个值,这意味着任何进行计算的计算机需要同时处理大量数字。考虑到当时的CPU每周期只能处理一到两个浮点数,因此需要数千个CPU。

SIMD加入战局:MMX,3DNow!和SSE

1997年,英特尔更新了Pentium CPU系列,引入了一项名为MMX的技术扩展——一组在核心内部利用八个附加寄存器的指令。每个寄存器被设计成存储一到四个整数值。这种系统允许处理器在多个数值上同时执行单条指令,这种方法更为人所熟知的是SIMD(单指令,多数据)。

一年后,AMD推出了自己的版本,名为3DNow!。由于寄存器可以存储浮点值,这使得3DNow!明显优于MMX。又过了一年,英特尔在奔腾III中引入了SSE(流式单指令多数据扩展),解决了MMX中的问题。

3DNow! 首次亮相于 AMD K6-2 CPU。来源:Fritzchens Fritz

随着时间推移,高性能计算机设计者们已经能使用可高效处理向量数学的标准处理器。

经过千百万次的扩展,这些处理器可以同样高效地处理矩阵和张量。尽管取得了这一进步,但超级计算机领域仍更青睐旧式或专用芯片,因为这些新扩展并未专为此类任务而设计。此外,还有另一种比AMD或Intel的任何CPU更擅长SIMD处理的迅速流行处理器:GPU。

在图形处理器的早期,CPU处理场景中组成三角形的计算(因此,AMD为其SIMD实现使用了3DNow!这个名字)。然而,像素的着色和纹理处理完全由GPU负责,并且这项工作的许多方面涉及到矢量数学。

20多年前最好的消费级显卡,如3dfx Voodoo5 5500和Nvidia GeForce 2 Ultra,都是出色的SIMD设备。然而,它们是为制作游戏的3D图形而创建,没有其他用途。即使在专业市场上的显卡也完全专注于渲染。

上一篇:详解最强AI芯... 下一篇:苹果芯片被曝...
猜你喜欢
热门阅读
同类推荐