“大算力时代” “存算一体化”,GPU 封装正当时
(报告作者:方正证券研究所分析师 吴文吉)
AIGC 算力大时代下,GPU 支撑强大的算力需求。ChatGPT 这样的生成式 AI 不仅需要千亿级的大模型,同时还需要有庞大的算力基础。

AIGC 算力大时代下,GPU 支撑强大的算力需求。GPU 即图形处理器(英语:graphics processing unit),又称显示核心、视觉处理器、显示芯片,可以兼容训练和推理,被广泛运用于人工智能等领域。作为AI 硬件的心脏,GPU 的市场被英伟达和 AMD 等海外巨头垄断。
ChatGPT 这样的生成式 AI 不仅需要千亿级的大模型,同时还需要有庞大的算力基础。训练 AI 现在主要依赖 NVIDIA 的 AI 加速卡,达到 ChatGPT 这种级别的至少需要 1 万张 A100 加速卡,而一颗英伟达顶级 GPU 单价高达 8 万元。
存算一体化突破算力瓶颈,GPU 封装进入正当时。在 AI 运算中,神经网络参数(权重、偏差、超参数和其他)需要存储在内存中,常规存储器与处理器之间的数据搬运速度慢,成为运算速度提升的瓶颈,且将数据搬运的功耗高。2016 年英伟达率先推出首款采用 CoWoS 封装的绘图芯片,为全球 AI 热潮拉开序幕。英伟达 H100 拥有 800 亿个晶体管,相比上一代的 A100,有着六倍的性能提升以及两倍的 MMA改进,采用的 CoWoS 2.5D 晶圆级封装。在算力芯片性能暴增的时代下,相关的封装产业链也逐渐的进入高速发展时期。
Chiplet 是后摩尔时代的半导体工艺发展方向之一。Chiplet 将大型单片芯片划分为一组具有单独功能的小芯片单元 die(裸片),小芯片根据需要使用不同的工艺节点制造,再通过跨芯片互联和封装技术进行封装级别集成,降低成本的同时获得更高的集成度。

Chiplet 技术要把原本单个大硅片“切”成多个再通过封装重新组装起来,而单个硅片上的布线密度和信号传输质量远高于 Chiplet 之间,这就要求必须发展出高密度、大带宽布线的先进封装技术,尽可能的提升在多个 Chiplet之间布线的数量并提升信号传输质量。支持Chiplet的底层封装技术目前主要由台积电、日月光、英特尔等公司主导,包含从 2D MCM 到 2.5D CoWoS、EMIB 和 3D Hybrid Bonding。
CoWoS ( Chip-on-Wafer-on-Substrate ) 是台积电主导的 , 基于interposer(中间介质层)实现的 2.5D 封装技术。CoWoS 先将芯片通过 CoW 封装至 Wafer(硅晶圆),并使用硅载片上的高密度走线进行互联,再把 CoW 芯片与 Substrate(基板)连接,整合成 CoWoS,达到封装体积小、功耗低、引脚少的效果。

TSV(Through Silicon Via,硅通孔)是 CoMoS 封装的关键技术。
TSV 在芯片和芯片之间、晶圆和晶圆之间制作垂直导通,通过铜、钨、多晶硅等导电物质的填充,实现硅通孔的垂直电气互连,是目前唯一的垂直电互联技术。台积电根据中介层的不同,将其 CoWoS 封装技术分为三种类型:CoWoS-S、CoWoS-R、CoWoS-L。

CoWoS-S 从 2011 年的第一代升级到 2021 年的第五代,第六代技术有望于 2023 年推出,将会在基板上封装 2 颗运算核心,同时可以板载多达 12 颗 HBM 缓存芯片。第五代 CoWoS-S 技术使用了全新的 TSV解决方案,更厚的铜连接线,晶体管数量是第 3 代的 20 倍。它的硅中介层扩大到 2500mm2,相当于 3 倍光罩面积,拥有 8 个 HBM2E 堆栈的空间,容量高达 128 GB。并且,台积电以 Metal Tim 形式提供最新高性能处理器散热解决方案,与第一代 Gel TIM 相比,封装热阻降低至 0.15 倍。

AI 时代下算力需求日益增长,GPU 先进封装的重要性凸显。CoWoS协助台积电拿下英伟达、AMD、Google 等高性能计算芯片订单。根据 DIGITIMES 报道,ChatGPT 日益普及所刺激的高端 AI 芯片需求激增,预计将推动对台积电 CoWoS 封装的需求,微软已与台积电及其生态系统合作伙伴接洽,商讨将 CoWoS 封装用于其自己的 AI 芯片。
英伟达高端 GPU 都采用 CoWoS 封装技术,将 GPU 芯片和 HBM2集合在一起。2016 年英伟达推出 Tesla P100,通过加入采用 HBM2 的CoWoS 第三代技术,将计算性能和数据紧密集成在同一个程序包内,提供的内存性能是 NVIDIA Maxwell 架构的三倍以上。并且,面向 HPC和 AI 训练,英伟达以 Volta、Ampere 架构为基础推出了 V100、A100高端 GPU,均采用台积电 CoWoS 封装,制程分别为 12nm、7nm,分别配备 32 GB HBM2、40GB HBM2E 内存。基于台积电最先进的CoWoS封装,全新Hopper架构的H100 GPU制程达到 4nm,具有 80GB的 HBM3 内存和超高的 3.2TB/s 内存带宽。

AMD 的数据中心加速器芯片将重新采用 CoWoS 封装。AMD 在 2017年考虑将 Vega 20 的供应商从 GlobalFoundries 更换为台积电,主要看重其 7nm 工艺和 CoWoS 先进封装,Vega 20 配备 32GB HBM2 内存,直接对标英伟达 V100 加速器。根据 DIGITIMES 报道,AMD MI 200原本由日月光集团与旗下矽品提供,应用 FO-EB 先进封装(扇出嵌入式桥接),新 MI 系列数据中心加速器芯片将重新采用台积电先进封装CoWoS。基于 Aldebaran GPU 的 MI250 或采用第五代 CoWoS 封装技术,制程 6nm,实现 128GB HBM2E 内存等超高性能配置。

HBM 是“GPU 存储器”的模式,将解决高算力 AI 背景下芯片的“存算一体”问题。HBM(High Bandwidth Memory,高带宽内存)是一款新型的 CPU/GPU 内存芯片,将多个 DDR 芯片堆叠在一起后和 GPU封装在一起,实现大容量,高位宽的 DDR 组合阵列。HBM 主要是通过 TSV 技术进行芯片堆叠,即 DRAM 芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片;DRAM 下面是 DRAM 逻辑控制单元,对 DRAM 进行控制;GPU 和 DRAM 通过 uBump 和 Interposer(起互联功能的硅片)连通;Interposer 再通过 Bump 和 Substrate(封装基板)连通到 BALL;最后 BGA BALL 连接到 PCB 上。
虽然多核(例如 CPU)/众核(例如 GPU)并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰,因此存算一体的芯片应运而生。存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。

HBM 突破了内存容量与带宽瓶颈。凭借 TSV 方式,HBM 使 DRAM从传统 2D 转变为立体 3D,比 GDDR5 节省了 94%的表面积,随着半导体行业向小型化发展,HBM 能更充分地利用空间,实现集成化。
同时,HBM 大幅提高了容量和数据传输速率,具有更高带宽、更多I/O 数量、更低功耗,革命性地提升了 DRAM 的性能。与 GDDR5 相比,GDDR5 内存每通道位宽 32bit,带宽为 32GB/s;HBM2 的每个堆栈支持最多 1024 个数据 pin,每 pin 的传输速率可以达到 2000Mbit/s,那么总带宽为 256GB/s;在 2400Mbit/s 的每 pin 传输速率之下,一个HBM2 堆栈封装的带宽就是 307GB/s。HBM 通过提升带宽、扩展内存容量,提高了存储与 CPU/GPU 之间的数据传输速度,从而减少了内存量小带来的延迟问题。

HBM3 即将问世,最高的数据传输速率提升到 8.4Gbps。从 HBM 性能的历史演进来看,2013 年,SK 海力士在业界首次成功研发出 HBM,HBM1 的数据传输速率大概可以达到 1Gbps 左右;2016 年推出的HBM2 为每个堆栈包含最多 8 个内存芯片,同时管脚传输速率翻倍达2Gbps;2018 年推出的 HBM2E,最高数据传输速率可以达到 3.6Gbps,可实现每堆栈 461GB/s 的内存带宽。2021 年,SK 海力士和 Rambus先后发布最高数据传输速率 6.4Gbps 和 8.4Gbps 的 HBM3 产品,每个堆栈将提供超过 819GB/s 和 1075GB/s 的传输速率。SK 海力士 HBM3显存的样品已通过 NVIDIA 的性能评估工作,在 2022 年 6 月向NVIDIA 正式供货;Rambus HBM3 或将在 2023 年流片,实际应用于数据中心、AI、HPC 等领域。随着 HBM3 的性能提升,未来市场空间广阔。

相关标的:长电科技、通富微电、华天科技、甬矽电子、晶方科技。
以上内容仅供学习交流,不构成投资建议。详情参阅原报告。
人类目前最快的飞行器 飞到6光年外的巴纳德星 需要多久
近1.9万年。人类一直都对星际旅行有着浓厚的兴趣和渴望,然而,目前的科技水平却限制了这个梦想的实现。人类飞行器在星际旅行中需要依靠天体之间的引力场在轨道上运行,而不是依靠自身动力,这就限制了其速度和灵活性。我要新鲜事2023-05-22 20:53:510001画风更精致更运动?Smart精灵3号堪称小姐姐收割机?
自从Smart开始在新能源领域发力之后,我就一直很期待精灵3号的出现。而这次近距离感受Smart精灵3号,明显能够看出,这台车在设计方面下足了功夫。相比于Smart精灵1号,3号的造型明显更加运动,有一种从文艺范到运动范的转变,也变相圈粉了一部分喜爱的消费者。从整体的外观来看,这是一台标准的轿跑SUV。不仅设计上突出运动的风格,连元素的设计也开始变得更加犀利。我要新鲜事2023-05-14 07:01:550000数学领域的巨大飞跃 揭示质数的分布规律(图兰猜想)
图兰猜想在数学界中有着重要作用和影响。在数学领域,图兰猜想一直是一个令人着迷而又极具挑战性的问题。自从提出以来,它不仅引领数学研究的方向,还激发了无数数学家的探索精神。图兰猜想主要探讨了质数分布的规律。质数是大于1的自然数,只能被1和它本身整除的数。在数学中,质数具有极其重要的地位。图兰猜想试图揭示质数在自然数中的分布规律,对于理解整个数学领域都有深远的影响。图兰猜想我要新鲜事2024-01-23 20:48:210001纳西族的传统节日:交易农具的棒棒会(象征春耕开始)
纳西族是个十分热情好客的民族,如果遇到了打猎归来的纳西族人,他会热情的分一份猎物给你,如果有贵客登门,主人会做六样或者八样菜进行招待。这样一个充满热情的民族,有着怎样的传统节日呢,一起了解一下吧。纳西族的传统节日祭天我要新鲜事2021-08-08 22:23:140002美国科学家认为 垃圾打包可扔火山里烧毁?
近日,美国一位科学家提出大胆的想法:能否将垃圾打包,扔到火山里烧毁?从表面上看来,这好像是个不错的提议,因为火山是大自然形成的,且目前人类没有发掘火山的可利用性,当垃圾扔进火山烧毁以后,似乎没有多大的后顾之忧。但实际上这个想法是完全不可行的,因为它并没有表面看起来那么简单。我要新鲜事2023-05-07 14:41:490000