引言
随着高性能计算(HPC)与人工智能(AI)技术的迅速发展,计算系统的规模与复杂度持续攀升,传统电互连在带宽、延迟及功耗方面的瓶颈日益显现。光子学凭借其高带宽、低能耗和长距离传输优势,正成为支撑下一代超级计算机和AI基础设施的核心技术之一。从以太网在HPC网络中的应用,到CPO(Co-Packaged Optics)等新型封装方案的探索,光子学正在重塑网络架构与互连模式。然而,光子学的大规模商业化仍面临成本、制造工艺、服务性及标准化等多方面挑战。本报告深入分析了光子学在当今与未来HPC及AI系统中的角色,剖析其技术路径、集成难点及产业生态,为产业参与者提供战略洞察与行动建议。
以下是对报告内容的梳理总结——————————————
一、HPC与AI系统现状
当前超级计算机系统的网络互连正逐步趋于标准化。Cray公司长期以来自主研发专有互连技术,但自2018年起,首次将以太网引入HPC网络架构。这一转变主要是因为在以太网基础上更容易增加所需功能,且其带来的优势超过了额外的(较小)成本。
目前的核心网络架构——Slingshot网络,采用以太网物理层和以太网链路层,并在此基础上增加协商增强功能,能够同时转发以太网、路由IP,并支持专有的可靠传输(ST)。此外,该网络具有开放的API接口,其libfabric提供者已在GitHub上开源。通过与Ultra Ethernet Consortium(UEC)的合作,Slingshot正朝标准化方向迈进,广泛应用于直液冷Cray Ex基础设施及标准机架中。
HPC互连正在逐步变得“常态化”,以太网方案在实际应用中已取得显著成功。
二、光子学在当今系统中的应用
当前光子学在高性能计算(HPC)系统中的应用仍受到成本和可制造性的显著限制。以Exascale级系统为例,其网络规模通常包括3万至10万块网络接口卡(NIC)、3千至5千台交换机以及10万至25万条互连链路。在这种大规模部署下,网络设计的目标是以单位成本实现最大化的全局带宽,而非单纯追求极限性能。
光互连的主要挑战在于成本。与电互连相比,光链路的价格约高出十倍。因此,当前的网络架构采取了分层混合互连方式:机柜内部仍以电互连为主,以确保短距离传输的成本效益,而机柜之间的长距离连接则通过光链路实现,以满足大规模系统中跨节点的高带宽和低延迟需求。
在现有HPC系统中,Dragonfly网络拓扑是光互连的典型应用案例。该结构利用一对NIC之间的一条长链路实现全局互连,机柜间通信依赖光学链路,而机柜内部的互连则通过高性能电缆完成。这种架构有效平衡了成本、带宽和系统复杂度,使得光子学技术能够在现阶段以有限规模渗透至高性能计算网络。
三、未来系统中的光子学角色
未来的高性能计算(HPC)和人工智能(AI)系统在带宽与功耗方面面临更高要求,光子学将发挥关键作用。当前,100 Gbps/通道和200 Gbps/通道的ASIC设计已完成,这些设计主要依靠能够驱动机柜内部电互连的SerDes。然而,随着带宽需求的不断攀升,400 Gbps/通道的ASIC设计正在研发中,电互连的传输距离将显著缩短,同时SerDes的功耗也持续上升。光子学被视为解决这些问题的核心技术。
光子学未来应用的目标是提供低成本、可制造且高度可靠的产品。HPC厂商计划利用200 Gbps/通道组件构建原型系统,用于验证技术可行性并获得高层管理者和客户的认可。未来,光子学的广泛应用不仅能够满足高带宽需求,还将显著降低高功率SerDes带来的能耗问题。
在交换机架构方面,未来的设计已经接近或超过光刻机的最大掩膜尺寸(reticle size),因此需要采用多Die封装的解决方案。为了实现不同网络功能的灵活性,交换机端口可能具备多种工作模式,如以太网(符合UEC标准)、专用Fabric协议以及CPO(Co-Packaged Optics)等。
总的来说,未来系统中的光子学将以CPO或CPC等先进集成方式嵌入交换机和NIC架构中,逐步替代高功耗的电互连,并为400/800 Gbps乃至更高速率的网络提供可扩展的高能效解决方案。
四、关键技术集成与设计挑战
当前及未来的高性能计算网络设计正面临光子学集成的多重挑战。HPE在网络接口卡(NIC)与交换机中均采用相同的“PML”模块,该模块提供MAC、PCS和链路层功能,并支持1、2、4或8通道的灵活配置。未来希望在NIC与交换机中统一采用同一光子学技术,以简化架构与生态,但对于NIC而言,仅需8通道(200或400 Gbps/通道)的低成本光子解决方案。
在交换机架构方面,现有顶尖交换机已采用TSMC N3及N2P工艺,核心设计接近或达到光刻最大掩膜尺寸(reticle size)上限,需要通过多Die集成实现大规模端口扩展。为了满足高带宽需求并降低功耗,交换机端口将更多地依赖CPO(Co-Packaged Optics)或CPC等先进封装集成方式。
同时,集成光学元件需要与现有制造工艺无缝兼容,而当前光子学方案常因未被纳入硅代工厂的制造流程而难以直接应用于量产系统。这种工艺匹配度不足导致光子技术即便成熟,也难以快速导入产品。
功耗问题同样成为设计挑战。随着SerDes速率提升至400 Gbps/通道,电互连传输距离缩短、能耗增加。光子学在降低功耗方面具有天然优势,但其在全负载和低负载状态下的能效优化尚需改进,目前唯一可行的策略是动态关闭链路以降低能耗,但网络负载的短时间大幅波动使该方法存在局限性。
此外,多Die交换机与集成光学封装的复杂性极高。采用直液冷、被动光链路连接至卡边的结构设计,使器件制造良率、供应链稳定性及可维护性面临考验。服务性问题尤为突出:一旦集成光学的交换机损坏,通常需要整体更换组件,而光纤或激光器的维护与替换难度较大。因此,在保证高带宽和低功耗的同时,如何实现可制造、可维护且高可靠性的光子学集成,成为未来系统设计的关键挑战。
五、光子学产业链与制造约束
未来光子学在HPC与AI系统中的大规模应用,受到制造工艺、供应链能力及成本结构的多重限制。当前最先进的交换机芯片采用TSMC N3及N2P工艺制造,这意味着任何光子学解决方案必须能够通过硅代工厂的制造流程实现集成。然而,现有部分高性能光子技术(例如HPE实验室自主研发的光子方案)虽然性能出众,但无法直接纳入当前的量产制造体系,导致难以在商业化产品中落地。
产业链的专有性进一步加剧了集成难度。各大硅服务公司通常拥有私有的Die-to-Die互连技术,并将其作为光子学方案的核心接口。这些专有协议在提升性能的同时,也限制了第三方光子模块的互通与兼容,导致通用化、标准化的光学端点市场尚未形成。对于整机厂商而言,必须依赖指定供应商的光学生态,无法自由选择不同光子技术的组合,从而增加了供应链风险和成本压力。
在制造可行性方面,光子学产品必须同时具备低成本、可量产和高可靠性的特征。随着系统规模达到Exascale级别(涉及数十万条互连链路),任何制造环节的良率下降都将导致整体成本的显著攀升。此外,如何确保封装和光学器件在量产过程中的一致性与可控性,也是当前光子学产业链面临的核心挑战。
要实现光子学的可持续发展,必须推动标准化接口的建立,促进产业链上下游协作,形成可替代、可扩展的供应生态。同时,制造端需通过先进封装、协同设计与工艺优化,确保光子学方案在先进工艺节点下的可制造性与高良率。
六、服务性与可维护性挑战
光子学在高性能计算和AI系统中的应用,除了面临制造与成本约束,还存在服务性与可维护性方面的突出挑战。随着光学互连的集成度不断提升,未来的交换机将采用多Die封装,并结合直液冷与被动光链路连接至卡边,这种高度集成的复杂结构虽然能够降低网络直径、功耗和延迟,但在维护和故障修复方面极其不便。
目前可预见的维护方案主要有两种:其一是整体更换交换机,这不仅会带来较高的复杂度和成本,也对供应链和备件管理提出更高要求;其二是替换被动光缆,但该方案对整体系统可靠性改善有限。为此,具备可插拔的光学模块被认为是未来提升可维护性的关键方向。将光学器件尽可能靠近芯片,并保持较低功耗,同时提供激光器的独立替换能力,可有效降低维修风险和系统停机时间。
然而,当前行业尚未建立统一的光子学接口标准,各大厂商的光学互连和封装方案多为专有设计,这导致光学组件的互换性和兼容性较差。未来必须在保持高性能的前提下,提升模块化设计和标准化水平,从而增强系统在运行周期内的可维护性和可扩展性。
七、标准化与生态建设
光子学在高性能计算(HPC)与人工智能(AI)系统中的广泛应用,亟需统一的标准化接口与开放生态支撑。目前,各大硅服务商普遍采用专有的Die-to-Die互连方案,这些方案虽然具备高性能优势,但对外部光子学解决方案的兼容性有限。这种“封闭”模式阻碍了通用光学端点市场的形成,削弱了供应链的多样性与灵活性。
为推动产业生态健康发展,亟需建立面向CPO(Co-Packaged Optics)的标准化接口,使不同供应商的光子模块能够在同一硬件生态中实现互操作。Ultra Ethernet Consortium(UEC)已在推动以太网与光学互连标准化方面发挥重要作用,这为HPC与AI系统的开放生态提供了参考路径。
然而,标准化的时间窗口正在收紧。随着400 Gbps/通道技术加速落地,厂商很可能在短期内仍依赖各自硅供应商的专有光子学方案。要实现更具弹性和可持续性的生态建设,产业各方需要协同推动统一接口规范,培育多元化供应链,确保未来光子学技术的可扩展性、可替换性及长期生态健康发展。
八、战略建议与行动方向
随着HPC与AI系统对网络带宽、功耗和可靠性的要求不断提高,光子学的战略地位愈发突出。要实现其大规模商业化应用,需要从技术开发、生态建设和标准化等多维度协同推进。
首先,在技术路线方面,应加快200 Gbps和400 Gbps/通道光子组件的验证和应用,通过原型系统和示范项目,尽快获得企业高层与客户的认可。这不仅有助于推动光子学在高性能互连中的落地,也能够在早期阶段积累工程经验,为未来800 Gbps及更高速率的解决方案奠定基础。
其次,在生态和标准化层面,应积极参与并推动Ultra Ethernet Consortium(UEC)等行业组织的标准化进程,加快CPO(Co-Packaged Optics)接口及互操作规范的建立。通过与供应商、代工厂及上下游合作伙伴的紧密协作,形成开放、多元且可持续发展的产业生态,以避免因专有方案导致的技术孤岛和供应链风险。
最后,在战略执行上,企业需聚焦于降低光学解决方案的功耗与成本,提高可制造性和可维护性,探索模块化与可插拔的设计思路。通过标准接口、可替换激光器等创新方式,提升系统服务性和可扩展性。同时,要针对供应链复杂性和工艺整合难点制定长期战略,确保在先进制程与光子学融合的过程中保持技术与市场领先优势。