第一个Week 8的第二堂课 Week 8 Lesson 2, 后面还有第二个Week 8.
本节课程的材料是一篇关于Google TPU的介绍性文章,从DNN的计算需求、代码量、计算优化的介绍开始,接着介绍了TPU的起源、架构和具体实现。详细介绍了TPU的结构框图和芯片布局设计。
从TPU的架构框图看,输入输出接口是Gen3 X16的PCIe接口,通过Buffer连接到计算核心Matrix Multiply Unit上,计算的结果输出给一个累积器Accumulators中,然后再经过系统Buffer和PCIe接口输出给Host。
文章比较了TPU芯片的性能功耗比相对于GPU和CPU的优势,并将这种显著的优势归因于以下几个方面:
1)单核单线程模型,便于满足固定时延的要求。
2)TPU采用了二维大矩阵乘法单元的设计,性能远超CPU/GPU的多个一维乘法器单元。
3)Systolic Unit(收缩单元?)二维矩阵设计,减少寄存器访问。
4)采用8bit整形数设计。
5)去掉了CPU/GPU中对于DNN计算不需要的功能,简化了设计。
TPU芯片的出现,是人类计算机技术发展的一个里程碑,大大地推动了异构计算的发展。
文章配图里面每颗TPU芯片表面的水冷散热设计很漂亮,工程设计的完美展示。