热门问题
时间线
聊天
视角

张量处理单元

来自维基百科,自由的百科全书

张量处理单元
Remove ads

张量处理单元(英文:Tensor Processing Unit简称:TPU),也称张量处理器,是 Google 开发的专用集成电路(ASIC),专门用于加速机器学习[1]自 2015 年起,谷歌就已经开始在内部使用 TPU,并于 2018 年将 TPU 提供给第三方使用,既将部分 TPU 作为其云基础架构的一部分,也将部分小型版本的 TPU 用于销售。

事实速览 推出年份, 設計公司 ...

总览

2016 年 5 月,Google 在 Google I/O 上宣布了张量处理单元,并表示 TPU 已经在其数据中心内部使用了超过一年。[2][3]该芯片是专门为 Google 的 TensorFlow 框架(一个符号数学库,用于机器学习应用程序,如神经网络)设计的。[4]不过,截至 2017 年,Google 也将 CPUGPU 用于其他类型的机器学习[2]其他供应商也设计了自己的 AI 加速器,并针对嵌入式机器人市场。

Google 的 TPU 是专有的,一些 TPU 的型号已经上市。在 2018 年 2 月 12 日,纽约时报报道称 Google 将“允许其他公司通过其云计算服务购买对这些芯片的访问权”。[5]Google 曾称,它们已用于 AlphaGo 与李世乭的人机围棋对战[3]以及 AlphaZero 系统中。Google还使用 TPU 进行 Google 街景中的文本处理,并且能够在不到五天的时间内找到 Google 街景数据库中的所有文本。在 Google 相册中,单个 TPU 每天可以处理超过1亿张照片。TPU 也被用在 Google 用来提供搜索结果的 RankBrain英语RankBrain 中。[6]

图形处理单元(GPU)相比,TPU 被设计用于进行大量的低精度计算(如 8 位的低精度)[7],每焦耳功耗下的输入/输出操作更多,但缺少用于光栅化/纹理映射的硬件。[3]

根据 Norman Jouppi英语Norman Jouppi 的说法,TPU 可以安装在散热器组件中,从而可以安装在数据中心机架上的硬盘驱动器插槽中。[2]

Remove ads

产品

更多信息 TPUv1, TPUv2 ...


Remove ads

第一代 TPU

第一代TPU是一个 8 位矩阵乘法的引擎,使用复杂指令集,并由主机通过 PCIe 3.0 总线驱动。它采用28 nm工艺制造,裸晶尺寸小于 331 mm2时钟速度为 700 MHz热设计功耗为 28–40 W。它有28 MiB 的片上存储和 4 MiB32位累加器,取 8 位乘法器的 256×256 脉动阵列的计算结果。[19]TPU 还封装了 8 GiB双通道 2133 MHz DDR3 SDRAM,带宽达到 34 GB/s。[10]TPU 的指令向主机进行数据的收发,执行矩阵乘法和卷积运算,并应用激活函数[19]

第二代 TPU

第二代 TPU 于 2017 年 5 月发布。[20]Google 表示,第一代 TPU 的设计受到了内存带宽的限制,因此在第二代设计中使用 16 GB高带宽内存,可将带宽提升到 600 GB/s,性能从而可达到 45 TFLOPS[10]TPU 芯片随后被排列成性能为 180 TFLOPS 的四芯片模块[20],并将其中的 64 个这样的模块组装成 256 芯片的 Pod,性能达到 11.5 PFLOPS。[20]值得注意的是,第一代 TPU 只能进行整数运算,但第二代 TPU 还可以进行浮点运算。这使得第二代 TPU 对于机器学习模型的训练和推理都非常有用。谷歌表示,这些第二代TPU将可在 Google 计算引擎上使用,以用于 TensorFlow 应用程序中。[21]

第三代 TPU

第三代 TPU 于 2018 年 5 月 8 日发布。[22]谷歌宣布第三代 TPU 的性能是第二代的两倍,并将部署在芯片数量是上一代的四倍的 Pod 中。[23][24]与部署的第二代 TPU 相比,这使每个 Pod 的性能提高了 8 倍(每个 Pod 中最多装有 1,024 个芯片)。

第四代 TPU

第四代 TPU 于 2021 年 5 月 19 日发布。谷歌宣布第四代 TPU 的性能是第三代的2.7倍,并将部署在芯片数量是上一代的两倍的 Pod 中。与部署的第三代 TPU 相比,这使每个 Pod 的性能提高了 5.4 倍(每个 Pod 中最多装有 4,096 个芯片)。

第五代 TPU

2021 年,谷歌透露TPU v5的物理布局是在深度强化学习新技术的帮助下设计的。[25]谷歌聲稱TPU v5快了差不多两倍,比TPU v4快。基于这一點和比A100更好的表现,人们推測TPU v5可能与H100一样快,甚至更快。[26]

与v4i是v4的轻量级版本一样,第五代也有一个名为v5e的“成本效益”的版本。2023年12月,谷歌推出了TPU v5p,宣称其性能与H100旗鼓相当。[27]

第六代 TPU

2024年5月,在Google I/O会议上,谷歌推出了TPU v6e (Trillium)。[28]谷歌声称TPU v6比起TPU v5e可实现4.7倍的性能提升,這要歸功於大尺寸的矩阵乘法單元和更快的时钟速度。高带宽存储(HBM)容量和带宽均提高了一倍。pod可包含多达256个Trillium单元。

第七代 TPU

2025年4月,在Google Cloud Next会议上,谷歌推出了TPU v7 (Ironwood)。[29] 这是一款名为Ironwood的新芯片,将有两个版本:256颗芯片集群和9,216颗芯片集群。Ironwood的峰值计算性能可达4,614 TFLOP。

Edge TPU

2018年7月,谷歌推出了用於邊緣運算特殊應用積體電路Edge TPU。[30]

参见

参考文献

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads