中金:AI行情驱动,Retimer芯片或迎来高速增长期

本文来自格隆汇专栏:中金研究,作者:唐宗其 石晓彬 彭虎

AI服务器整体出货量提升,Retimer受益于乘数效应。

我们看到AIGC对算力需求的不断拉动以及PCIe5.0的逐步渗透,服务器内部元器件的互联速率及带宽要求也逐步提升,而由此产生的信号衰减问题有待解决,Retimer作为信号衰减的主要解决方案之一,可以通过较低的成本更好地保证信号传输质量。随着AI服务器出货量的提升以及内部GPU、SSD等外设地增加,我们预计Retimer市场规模有望迎来快速增长。

摘要

PCIe协议保证信号在CPU与终端之间高速通行,但信号衰减务须解决。PCIe协议是一种高速串行计算机扩展总线标准,为主板与显卡等外围设备连接提供标准化的方案。近年来,高速数据传输协议已由PCIe 3.0(数据速率为 8GT/S)发展至 PCIe 5.0(数据速率为 32GT/S),数据传输速度翻倍的同时带来了突出的信号衰减和参考时钟时序重整问题,这些问题影响了超高速数据传输协议在下一代计算平台的应用范围。

Retimer技术为信号衰减主要解决方案之一。PCI-SIG对于信号传输损耗有严格规范:PCIe4.0损耗不得超过28dB,PCIe5.0损耗不得超过36dB。目前解决方案主要有三:1)PCB板材更换,但在部分场景面临成本较高问题;2)Redriver芯片技术:Redriver芯片作为信号中继器,通过放大信号振幅、修正信号时序偏移来保证信号质量,成本较低,但提升信号质量效果不佳;3)Retimer芯片技术:Retimer芯片主要通过重新生成信号来保证传输质量,信号传输质量佳,可用于长距离高速传输。在解决散热及功耗问题后,相较于前两种方案,Retimer芯片在成本以及信号质量上可以取得平衡。

AI服务器相对于传统服务器对Retimer需求量有较高提升。AI服务器收集、处理巨量数据集对总带宽大小及传输速度、传输稳定性具有较高需求,大规模数据训练带来的分布式计算、存储需求同样需要快传输速度及高传输质量。此外,为保证训练模型质量,保障原始训练数据的完整性、真实性,减少数据错误及损失同样至关重要。因此AI服务器往往存在大量PCIe 5.0插槽接口需求,同时单插槽接口也将具有多条lane以提供更多、更快的数据传输,潜在Retimer芯片需求量大。据澜起科技表示,目前一台配8块GPU的主流AI服务器有8颗甚至16颗PCIe 5.0 Retimer芯片需求。

风险

AI服务器出货量不及预期,PCIe 5.0渗透率不及预期。


Retimer芯片:信号损耗优选解决方案之一


PCIe协议:代际速度高增,致力于高速传输

PCIe协议采用串联方式保证信号稳定在CPU与终端之间高速通行。PCIe协议是一种高速串行计算机扩展总线标准,为主板与显卡等外围设备连接提供标准化的方案。其脱胎于PCI及PCI-X系产品,由PCI-SIG开放式行业联盟研发、维护及制定标准。PCI-SIG联盟形成于1991年,由Intel率先牵头发起,至今已包含Intel、AMD、NVIDIA、Dell、HP等诸多知名企业,致力于提供更好的PCIe协议技术,并在软硬件相关领域推广统一标准。回顾PCI协议发展历史,1992年PCI 1.0出现,凭借32bit位宽下128MB/s的传输速度取代ISA的市场地位;1998年PCI-X v1.0为PCI总线技术的扩展版,在32bit位宽下提供达533MB/s的传输速度;2003年PCI-SIG发布PCIe 1.0技术,以串行架构取代过去的并联架构,具有信号互扰少、传输速度快的优势。

图表1:PCIe协议发展历程

资料来源:PCI-SIG官网,中金公司研究部

图表2:PCIe协议工作原理

资料来源:TI官网,中金公司研究部

PCIe协议兼取并联之长,吞吐效率受通道数量影响。受到PCI及PCI-X并联通道启发,PCIe协议利用并联技术优势,可提供不同通道数量传输需求。PCIe 1.0单通道提供约250MB/s单向传输速度,同时可提供x1、x4、x8、x16、x32不同通道数量规格。单个lane由两对差分线组成,一对用于接收信号,一对用于发送信号,每对差分线由两根并行、传输相反信号的导线构成,接收器检测到两信号差值,而噪声与干扰往往以相同方式影响线路,故而噪声会相互抵消掉,信号传输具有更好质量。此外,差分设计还有利于降低信号的衰弱及失真、减少邻近导线扰动,因而差分线可使用更高的时钟脉冲频率。相较PCI的并行数据信号技术而言,PCIe技术单通道使用更短的信号线即可达到更大的总线带宽。PCIe串行总线技术同时兼有并行优势,自2003年PCIe 1.0技术创始起,即可响应多条通道数量同时进行,PCIe card产品可根据需求自由设计不同尺寸的插槽与配置,多条通道成倍数提升传输速度,提升数据吞吐效率。

PCIe协议迭代频率稳定,代际间传输速度翻倍增长,高速传输中存在信号损失问题。PCIe协议保持稳定迭代速度,自2003PCIe1.0出现至2010每3~4年迭代一次,2017至2021年每2年迭代一次,均向后兼容前代版本。受益于编码方式从8b/10b转变为128b/130b,2017年推出的PCIe 4.0单通道传输速度提升至约2GB/s,PCIe 5.0、PCIe6.0单通道传输速度分别提升至4GB/s及8GB/s。PCIe协议作为高速串行计算机扩展总线标准,是PCI-SIG联盟制定与管理的行业规范,并不直接提供产品。PCIe技术迭代需求主要受相关行业需求影响,PCI-SIG联盟涵盖硬件厂商、系统集成商、软件开发商及其他技术公司,相关行业对于带宽速度要求的不断增长推动PCIe的技术迭代。高速传输中信号损失高等问题难以避免,保障信号传输质量为关键需求。

图表3:PCI-SIG联盟部分成员

资料来源:PCI-SIG官网,中金公司研究部

图表4:PCIe 4.0传输中出现信号损失概率

资料来源:TI官网,中金公司研究部

Retimer芯片:兼具成本与信号传输质量的解决方案

Retimer芯片运作原理主要为电气补偿+时钟重采,主动参与PCIe以优化信号。数据补偿方面,Retimer芯片采用CTLE技术,在接收端进行连续时间的线性化处理来补偿信息传输中损耗,增强信号中的高频分量,从而减少传输误差,同步利用自适应性均衡和判决反馈均衡器或DFE来补偿信号损失,在发射机上提供预/后加重以改善信号。数据采样方面,Retimer芯片应用低通滤波器以减少高频噪声和抖动,之后利用干净的恢复时钟重新对恢复后的数据进行采样,有助于减少噪音。此外,Retimer芯片还具有主动参与PCIe协议的能力,其在LTSSM的监督下,在根复合体与终端之间进行通信,以优化其输入及输出信号的完整性。

图表5:时钟重采技术的应用效果

资料来源:TI官网,中金公司研究部

Retimer芯片布局及使用数量受PCIe协议拓扑结构影响。主板物理空间及PCIe协议迹线布局影响PCIe所采用拓扑结构,PCIe协议拓扑结构对于Retimer芯片排布有不同需求。直线拓扑中,Retimer应放置于导线中间点,以确保信号能有效覆盖导线,若传输距离过长,或将应用多个Retimer芯片;树形及分支拓扑中,Retimer芯片常须放置于分支点处,其数量需求取决于分支数量或整体信号情况;星形及扩展星形拓扑当中,Retimer芯片主要放置于中心节点;网状拓扑结构当中,Retimer布置需根据节点间实际距离、连接路径复杂性来综合考量。

高传输速度同步导致高传输损耗,相较PCB、Redriver,Retimer技术在成本和信号质量间取得平衡。PCIe技术迭代快于商业化产品应用,PCIe 5.0技术于2019年即已出现,于2023年开始普及,PCIe 6.0技术2021年即已出现,至今尚未规模商业化,主要受制于成本与信号传输损耗难题。PCIe 4.0及之后,编码方式改变带来传输效率提高,而受主板布局影响的传输距离基本保持不变,同步带来信号传输损耗的问题。PCI-SIG对于信号传输损耗有严格规范:PCIe4.0损耗不得超过28dB,PCIe5.0损耗不得超过36dB。目前解决方案主要有三:1)PCB板材更换:需要使用介电损耗与色散更低的PCB基板来控制信号损失,但PCB Rogers系板材约为常用FR4板材成本3~10倍,需要考虑成本问题;2)Redriver芯片技术:Redriver芯片作为信号中继器,通过放大信号振幅、修正信号时序偏移来保证信号质量,成本较低,但提升信号质量效果不佳;3)Retimer芯片技术:Retimer芯片主要通过重新生成信号来保证传输质量,除对信号进行放大、整形处理外,其在构建的模拟域中采用电气方式补偿信号损失、优化信号波形来减少失真,后通过时钟数据恢复技术,利用干净的恢复时钟来采样恢复后的数据。Retimer芯片本质在于重新生成数据,信号传输质量佳,可用于长距离高速传输,在散热、功耗问题平衡后,具有一定优势。

图表6:Retimer工作原理

资料来源:TI官网,中金公司研究部

PCIe协议迭代提升带宽传输速度,Retimer芯片需保持同步迭代更新。PCIe协议速度成倍提升,除编码模式改变外,主要依赖于时钟脉冲频率提升而扩大带宽。奈奎斯特定理指出,重新采集信号频率须为原信号最高频率两倍方能保证信号重采的完整、稳定。数据重新采样为Retimer芯片工作的关键一环,其采样信号完整性及有效性严重影响整体信号传输质量。目前PCIe端代际总带宽提升大,每代PCIe协议带宽约为成倍提升,Retimer芯片须提升其重采时钟脉冲频率上限来保证信号传输质量,时钟脉冲频率上限主要受制于芯片硬件设计及制成工艺,难以通过编码调整,故需与PCIe同步迭代。

图表7:PCIe 5.0 Retimer在AI服务器中的工作过程

资料来源:澜起科技官网,中金公司研究部

Retimer需求受PCIe技术迭代牵引,有望受益于PCIe 5.0渗透率扩大。Retimer技术致力于解决传输损耗问题,自PCIe 4.0技术后有望成为主要解决方案之一。我们认为受材料成本及PCI-SIG对于传输损耗的严格限制影响,应用PCIe 4.0及之后技术的产品或将主要选取Retimer作为信号损失的解决方案。目前PCIe 4.0产品得到广泛应用,PCIe 5.0协议渗透率逐步提升。PCIe 4.0产品方面:GPU端,NVIDIA RTX 30系列产品、NVIDIA A100产品采用PCIe4.0技术;固态硬盘方面,PCIe 4.0 NVMe SSD相关产品出货量逐渐增大,2023年达2740余万个;主板方面,AMD X570、B550及Intel Z490、Z590均已支持PCIe 4.0技术;出货量破5000万台的游戏主机PS5采用基于PCIe 4.0技术的定制SSD;采用PCIe 4.0技术的产品已全系铺开。PCIe 5.0产品方面:GPU端,主要用于支持高端显卡,如NVIDIA RTX 4080/4090及AMD Radeon RX 7900 XTX产品;服务器及CPU端,Intel Xeon系处理器宣称支持高达 2TB容量、80个PCIe 5.0通道,阿里云磐久服务器M系列和倚天710芯片均已通过PCIe 5.0接口官方认证;固态硬盘方面,Crucial T700已应用PCIe 5.0技术,市占率将在2024年进一步扩大;PCIe 5.0目前主要应用于服务器方面,以响应提升计算效率需求。PCIe 6.0产品方面:目前Amphenol MCIO线缆连接器、Amphenol ExtremePort™ Swift线缆连接器均已宣称实现对PCIe 6.0的技术支持。

图表8:支持PCIe 4.0及5.0的部分产品概览

资料来源:各公司官网,中金公司研究部

PCIe 6.0技术有望逐步落地,Retimer芯片优势进一步扩大。Synopsys与Intel搭载PCIe 6.0的测试芯片实现互操作,我们认为PCIe 6.0技术自21年诞生以来有望加速落地。PCIe 6.0采用PAM-4的编码技术,实现单位信号周期传输两位数据,提供单通道约8GB/s的传输速度,未来有望广泛应用于AI、消费电子等带宽密集型行业。PCIe 6.0带来的数据传输速度提升、传输量增加及PAM-4编码技术的采用均会导致信号损耗的增加,我们认为Retimer芯片有望受益。此外,据PCI-SIG,PCIe 7.0标准将于2025年发布。

图表9:PCIe各代技术及通道所能提供的最大数据吞吐效率

资料来源:PCI-SIG官网,中金公司研究部


AI行情驱动,Retimer芯片或迎来高速增长期


AIGC产业链推进或加速PCIe 5.0渗透率提升

国内外AI产业链快速推进。算力方面,TrendForce表示,2023年,AI服务器出货量约120万台,同比增长38.4%,据Gartner表示,AI芯片全球市场规模超530亿美元,预计2027年AI芯片市场规模将达1197亿美元。模型训练方面,入局企业众多:海外OpenAI领跑,其发行的ChatGPT 4.0版本训练参数已超万亿,Google推出PaLM 2 AI模型,支持20余种语言编码,已于5400亿参数完成训练;国内百度领跑,2023年3月16日,百度推出“文心一言”,为首个中文类ChatGPT大模型,阿里巴巴推出“通义”大模型系列,M6大模型版本为国内首个千亿参数多模态大模型。实地应用方面,据Gartner表示,消费电子端2024年预测全球AI PC及生成式AI智能手机出货量预计达2.95亿台,AI PC出货量占PC总出货量22%,生成式AI智能手机出货量将占到基础和高级智能手机出货量的22% ,预计2024年PC出货量将增长3.5%,智能手机出货量将增长 4.2%;大模型应用落地将构建AI生态,“文心一言”已支持多种AI工具插件接入,提供AI长文创作、AI绘画、AI导图等多维服务,搭载该大模型的长安汽车逸达已投入量产。

图表10:AI大模型部署过程

资料来源:TI官网,中金公司研究部

AI服务器有更高的互联带宽需求, PCIe 5.0协议渗透率有望提升。AI服务器设计采用异构形式,结合多种处理器及加速器,相较通用服务器具有更强的数据处理能力及AI训练能力,元件间数据传输量需求同步扩大。AI服务器Dell PowerEdge XE9680具有10个PCIeGen 5.0 x16规格插槽,连接8个SXM GPU,装配有2个Intel Xeon处理器。NVIDIA DGX H100搭载8个NVIDIA H100张量核心GPU,采用双路x86架构CPU,包含两颗Intel Xeon 8480C CPU,每颗CPU具有56个核心,基础频率为2.0GHz,同时集成PCIe Gen 5 x16通道接口,提供128GB/s的总带宽,PCIe Gen 5能使H100与x86 CPU和SmartNIC进行连接。此外,存储端产品迭代均现采用PCIe 5.0趋势,英韧科技SSD产品Tacoma IG5669具有4通道PCIe 5.0接口,顺序读取速度可达14GB/s,同有科技发布NetStor®18000产品,为国内首款基于PCIe 5.0的自主可控全闪分布式存储产品,Memblaze所发布PBlaze7 7940系列企业级NVMe SSD同样支持PCIe 5.0技术。AI服务器受算力需求牵引,对信号传输速度及数量要求均高于通用服务器,电子元件间带宽需求上行带来存储、GPU等终端产品对支持PCIe 5.0协议增多,PCIe 5.0协议有望提高在服务器领域内的渗透率。

图表11:AI服务器性能快速提升

资料来源:NVIDIA官网,中金公司研究部

图表12:H100网络模块结构拆解

资料来源:NVIDIA官网,中金公司研究部

AIGC需求拉动,AI服务器有望持续增长。受益于AIGC需求带动,模型算力需求上升,AI服务器供不应求,主要厂商纷纷扩产。AIGC渗透多行业趋势明显,服务于教育、娱乐、电商、运营等行业,各行业内主要企业入局者众,模型算力需求水涨船高,下游服务器行业供不应求。据TrendForce表示,2023年全球AI服务器约出货120万台,占整体服务器总出货量约9%,预计2024年AI服务器出货总量将超过160万台,占整体服务器比例约12.1%,上涨比例超30%,预计2026年AI服务器出货量约240万台,占整体服务器比例约15%。需求端行情带动高增长产能,AI服务器处于持续放量阶段。

图表13:全球AI服务器出货量预测

资料来源:Trendforce,中金公司研究部

图表14:中国AI服务器出货量走势

资料来源:中商产业研究院,中金公司研究部

联盟成员多入局AI,PCIe生态龙头地位不减。PCI-SIG联盟已涵盖超800家企业,目前AI服务器主要供应商,Dell Technologies、IBM、Lenovo均为PCI-SIG成员,主要芯片供应厂商NVIDIA及Intel也均系PCI-SIG重要成员。目前高速传输协议除PCIe之外,由NVIDIA开发的NVLink主要用于连接GPU与CPU、GPU与GPU,主要为NVIDIA旗下产品提供服务。CXL作为新兴高速串行技术,致力于为高性能计算机提供服务,支持CPU与其他以CXL形式与CPU相连的设备共享内存,相连设备可直接读取CPU内存中数据;CXL同时支持一致性模型,该模型在CXL协议一致下可使对修改数据及时更新、追踪,同时使更改对连接的所有设备可见,以此保障大规模数据传输的准确性与速度,CXL建立于PCIe的物理、电气接口上,与PCIe具有良好的兼容互补性。目前来看,PCIe龙头地位不减,将凭成熟生态及广泛兼容性持续受益于AI行情上行。

Retimer芯片需求量有望迈入成长新台阶

AI服务器相对于传统服务器对Retimer需求量有较高提升。AI服务器对数据传输质量和带宽都有所提高,随着服务器端PCIe 5.0协议逐渐普及,Retimer芯片行业或将受益。据IDC预测,2025年全球整体数据量将达188ZB,国内数据量将达47.9ZB。ChatGPT训练参数量为万亿规模数据,主要大模型训练参数量均超十亿,且往往需重复训练多次方能提升模型效果。收集、处理巨量数据集对总带宽大小及传输速度、传输稳定性具有较高需求,大规模数据训练带来的分布式计算、存储需求同样需要快传输速度及高传输质量。此外,为保证训练模型质量,保障原始训练数据的完整性、真实性,减少数据错误及损失同样至关重要。AI服务器要求传输速度快,往往存在大量PCIe 5.0插槽接口需求,同时单插槽接口也将具有多条lane以提供更多、更快的数据传输,潜在Retimer芯片需求量大。

图表15:全球数据规模变化趋势

资料来源:IDC,中金公司研究部

图表16:中国数据规模变化趋势

资料来源:IDC,中金公司研究部

AI服务器整体出货量提升,Retimer受益于乘数效应。PCIe协议提供多样化的通道数量选择,整体传输速度=单条lane传输速度*通道数量,Retimer芯片使用并非完全基于通道数量,而是由数据传输需求所决定。Retimer使用数量的驱动因子主要为信号损失度+传输数据数量。从信号损失度来判断,其主要受传输频率及传输距离影响。随PCIe协议迭代升级,时钟脉冲频率提升时同时导致信号传输损耗、丢失问题;而受主板物理空间及布局排布限制,更高时钟脉冲频率依旧沿用既有布局,导线长度几乎不变,损耗问题难以被解决。从传输数据数量来判断,PCIe升级带来带宽成倍增长,传输数据量同样将成倍增长,出现更多Retimer芯片需求。据澜起科技表示,目前一台配8块GPU的主流AI服务器有8颗甚至16颗PCIe 5.0 Retimer芯片需求[1]。故我们判断,AI服务器行情上行叠加PCIe协议更新,将扩大Retimer芯片使用数量。

图表17:Retimer使用数量的影响因素

资料来源:TI官网,中金公司研究部

风险提示

AI服务器出货量不及预期。我们认为AI服务器行情上涨对于Retimer芯片具有牵引作用,单体服务器对Retimer芯片数量要求增多叠加服务器整体出货量提高带动Retimer需求。AI服务器出货量受到多因推动,AI服务器出货量不及预期可能对Retimer芯片需求有一定影响。

PCIe 5.0渗透率不及预期。PCIe 5.0协议渗透率提升为Retimer芯片需求量提供增长动能。Retimer芯片为PCIe 5.0传输损耗的优选解决方案之一,需求量与支持PCIe 5.0协议产品渗透率变化相关。若受技术、产出等因素影响,PCIe 5.0渗透率不及预期,或对Retimer芯片需求量有所影响。

本文摘自中金公司2024年4月9日已经发布的《智算未来系列五:Retimer,高速互联新机遇》

唐宗其 分析员 SAC 执证编号:S0080521050014 SFC CE Ref:BRQ161

石晓彬 分析员 SAC 执证编号:S0080521030001

彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论