引言

随着摩尔定律逐步逼近物理极限,芯粒(Chiplet)与多Die集成架构正成为推动半导体技术演进的关键路径。面对跨Die互联、高度集成、多核并行的软件定义计算系统,传统的芯片验证方法已难以满足系统复杂性、迭代速度与功耗性能的多重需求。Synopsys在2025年Chiplet Summit上提出的模块化硬件辅助验证(Modular Hardware-Assisted Verification, 简称HAV)方法,正是为应对这一验证危机所构建的新范式。本报告系统梳理了芯粒架构所面临的验证挑战、验证工具与流程的演进路径,以及模块化HAV在设计架构探索、原型构建、系统验证与软件协同中的核心价值,旨在为行业提供一套面向未来的验证战略框架与技术路径指引。

以下是对报告内容的梳理总结——————————————

一、行业背景与技术变革趋势

1.1 芯粒推动半导体进入下一轮变革浪潮

第二届Chiplet Summit展示了半导体领域的下一轮重大变革趋势。基于模块化的芯粒(Chiplet)架构正成为系统级复杂度应对方案的关键。在此背景下,芯片设计面临着日益增长的复杂性,包括晶体管数量、模块数量以及所涉及的通信协议类型的急剧扩张。例如,NVIDIA的Blackwell架构和GB200超级芯片等新一代设计,体现了系统构建规模与复杂性均达到前所未有的水平。

1.2 向Multi-Die架构的转型动因

多Die架构的转型动因主要体现在以下几个方面:

  • 系统功能的加速扩展:通过芯粒化实现更具性价比的扩展路径;
  • 重用验证过的设计与Die:降低风险,加快上市时间;
  • 功耗优化:在增加吞吐的同时实现系统功耗的降低;
  • 产品组合灵活性增强:更快速地构建产品变体,满足市场多样化需求。

1.3 多样化用例推动架构演化

芯粒架构使得在多个市场垂直领域中,构建不同形态的系统成为可能:

  • Disaggregate(拆分):将SoC拆分为IO或缓存芯粒以优化良率和成本;
  • Aggregate(聚合):将多个功能整合在不同工艺节点和封装形态下;
  • Split(分裂):将大芯片分裂以突破光罩限制,实现更大容量系统;
  • Scale-Up(扩展):通过紧耦合的Die间结构扩展处理器/加速器能力。

1.4 多Die架构支持变革性产品落地

以商业产品为例,芯粒技术已支撑多种变革型产品的实现:

  • AMD 的3D V-Cache混合键合方案实现了能效提升3倍、互联密度提升15倍;
  • Intel 的异构计算平台采用EMIB和Foveros集成,实现了跨47个Tile、5个工艺节点的设计;
  • Apple 的个人计算芯片整合2个Die、1140亿个晶体管,实现2.5TB/s的Die间带宽;
  • NVIDIA 的下一代AI计算平台(如Gen AI Superchip)在2个Die内集成超过2000亿晶体管,实现3.2TB/s的片间互联。

1.5 系统验证面临“房间级超级计算机”的挑战

典型如Grace Blackwell架构的系统,其包含130万亿个晶体管、2,592个CPU核心、1.4 Exaflops的性能,拥有14TB内存和1.2PB/s的带宽——已达到“一个房间级超级计算机”的系统复杂度。这类系统的验证,已超出现有工具链和方法学的常规能力边界,构成2025年及之后系统验证的关键挑战。

二、芯粒系统验证面临的核心挑战

2.1 多维复杂性构成验证难题核心

在芯粒与多Die架构逐渐成为主流设计范式的背景下,验证工作所面临的挑战呈现出系统性、多层级与跨平台特征。从指令集架构(ISA)的验证开始,延伸到微架构级别的新指令功能性验证、CPU阵列的多核一致性问题,最终至SoC层面的整体功能验证和系统级协同。

更进一步,验证流程还需覆盖以下方面:

  • 多核系统一致性验证:确保所有核心协同正常工作;
  • 存储一致性机制验证:特别是在共享内存架构中,保证缓存一致性;
  • 多Die互联验证:跨芯粒的数据流与协议交互正确性验证;
  • 系统接口验证:如PCIe、Ethernet、USB、HDMI等标准接口;
  • 软硬协同验证:嵌入式软件在系统中的早期验证与调试;
  • 后硅验证(Post-Silicon Validation):保证产品最终在真实物理环境中无缺陷运行。

验证路径需跨越从基础外设到CPU集群、AI加速器、NoC、外部互联、安全模块等全系统组件。最终验证问题集中于一点:多芯粒能否稳定、正确地协同工作?

2.2 验证生产率严重滞后于芯片复杂性增长

随着晶体管数量指数级扩张,传统验证方法已难以支撑现代系统的规模。典型代表如NVIDIA Grace Blackwell系统,集成了130万亿个晶体管,相比1994年的Pentium P54C(仅300万晶体管),其复杂度增加了超过五个数量级。

回顾行业发展,测试生成与验证手段经历以下阶段:

  • 1970s–1990s:主要依赖手动测试和硬件定向测试方法;
  • 2000s:进入SystemVerilog及约束随机测试、覆盖率驱动验证阶段;
  • 2020s:采用Accellera PSS等形式化验证方法,融入软件驱动和指令集验证;
  • 至今:验证所需周期和复杂性正向千兆(10⁹)甚至拍(10¹⁵)周期级别跃迁。

尽管验证工具不断升级,但测试生成生产率与验证需求之间的鸿沟日益扩大。测试生成速度提升了3个数量级,但验证需求增长了5个数量级,留下了两个数量级的“生产力缺口”,增加了硅片级缺陷“逃逸”的风险,严重影响芯片上市时间与质量保证。

2.3 多Die系统的验证成为全栈性挑战

芯粒化设计并非简单模块拼接,而是一个自底向上和自顶向下多维协同的系统性挑战:

  • 架构级的系统建模与动态分析:需在早期阶段完成带宽、延迟、互联结构的评估;
  • 分区与工艺选择:依据负载映射与数据流特性,决定芯粒划分与接口分布;
  • 性能与功耗指标评估:从单Die到系统级,量化多Die架构对系统关键KPI的影响;
  • 早期软件开发与调试:必须提前提供虚拟模型支持上层软件验证与混合调试;
  • 验证平台适配:实现形式化验证、仿真、原型、在回路仿真等多平台无缝协同。

系统验证由IP团队、子系统团队和系统整合团队协作完成,验证维度从功能正确性延展至性能、功耗、安全性与可靠性等系统属性,是芯粒时代的关键门槛与价值创造点。

三、模块化硬件辅助验证(Modular HAV)的战略意义

3.1 模块化理念成为芯粒系统验证的核心范式

随着芯片复杂度持续攀升,传统“整体式”验证方式已难以胜任现代多Die系统的构建需求。模块化验证策略应运而生,成为提升验证效率、实现验证闭环的关键途径。该策略强调以下核心特征:

  • 子系统并行开发与验证:不同团队可并行构建并验证各自负责的功能子系统;
  • 系统级集成验证:在验证子系统正确性的基础上,逐步集成形成完整芯片系统;
  • 自然继承模块化设计结构:从功能设计模块、到验证环境、再到原型平台的模块划分,实现方法学与工具链的无缝衔接。

在此过程中,形式验证、仿真验证等传统验证方式,正在逐步过渡并扩展至原型验证与仿真加速平台,成为完整的验证闭环流程。

3.2 ProtoCompiler与HAPS平台实现模块化验证流程落地

Synopsys通过ProtoCompiler软件和HAPS FPGA平台,提供了完整的模块化硬件辅助验证工具链,具备以下能力:

  • 用户引导的时序感知式分区:根据系统RTL,按时序约束和逻辑划分出独立子系统;
  • 子系统独立项目构建:每个子系统形成独立的Netlist工程,便于独立开发与调试;
  • 自动或半自动FPGA映射:可依据性能与资源需求,将子系统映射至对应的FPGA上。

该方法采用双阶段(Two-Pass)时序驱动分区流程

  • 第一阶段:完成整体系统的粗粒度模块划分与时序预算分析;
  • 第二阶段:对每个子系统进行具体FPGA映射与资源分配,实现并行构建。

该策略显著提升了原型验证平台的构建效率,增强系统验证的可预测性与可扩展性。

3.3 多核/多线程架构对验证提出新要求

现代SoC及芯粒系统普遍采用高度复制的执行单元(如CPU、GPU、AI加速器),同时运行复杂的多线程软件。在这一背景下,验证平台需要满足以下需求:

  • 支持大型多核原型平台:以支持复杂软件在真实硬件配置上的运行;
  • 快速发现复杂多线程Bug:许多软件缺陷仅在高并发硬件环境下才能显现;
  • 早期调试与验证软件逻辑:通过芯粒虚拟模型与原型平台,支持上层应用与操作系统的前置调试。

模块化原型平台不仅降低了Bring-up时间,还显著提升了软件开发团队的问题定位效率。

3.4 模块化原型验证的系统性价值

模块化硬件辅助验证不仅是技术手段的升级,更在验证流程与组织架构上带来深远影响:

  • 可扩展性与预测性:各子系统可独立构建、调试,再集成到整系统中,验证过程更具节奏感与稳定性;
  • 增量构建机制:变更仅需重建相应子模块,支持比特流(bitfile)重用,尤其适用于多核系统的复制性场景;
  • 验证本地化与问题定位加速:支持局部调试、软件Bring-up、定位边界问题等多维操作;
  • 适配芯粒与多Die设计范式:从架构层级到FPGA平台架构,全面支持现代SoC设计的模块化构建逻辑。

综上,模块化硬件辅助验证正在成为应对Chiplet时代复杂系统验证挑战的关键工具和战略方向,推动从IP团队到系统集成商、从架构师到软件工程师的全栈协同创新。

四、模块化验证平台的构建与实践路径

4.1 多Die架构的建模与原型设计流程

面对多Die系统的复杂性,构建有效的验证平台需从早期系统建模阶段就确立模块化策略,具体包括以下几个步骤:

  • 工作负载定义:明确应用需求,包括端到端的延迟、吞吐量等关键指标;
  • 架构定义:设定硬件性能与功耗等目标,定义所涉及的关键组件,如SRAM、HBM、NoC与IP核等;
  • 分区与工艺选择:将系统合理划分为多个芯粒(Chiplet),并依据数据结构与流向,确定Die间通信模式,优化性能与功耗;
  • 系统原型构建:形成完整的多Die原型平台,进行组件级与系统级的验证,确保系统建模精度与可执行性;
  • 技术约束与物理实现:将功能需求转化为工艺约束,如面积、封装形状、长宽比等,指导后续实现与验证工作。

这一流程不仅可用于传统功能验证,也能有效支撑性能评估、功耗建模与架构选型,是面向芯粒架构的全生命周期验证支撑体系。

4.2 多平台硬件辅助验证工具协同整合

Synopsys构建了一个多平台、异构集成的硬件辅助验证体系,以应对芯粒设计中从架构探索到系统验证的全流程挑战。该体系包括以下关键平台:

  • 虚拟原型(Virtual Prototyping):通过Virtualizer创建可编程的虚拟平台,实现早期软件开发、性能建模与系统功能仿真;
  • 混合验证平台(Hybrid with ZeBu):将Virtualizer与ZeBu仿真器联动,支持高性能仿真与在回路调试;
  • 原型验证平台(HAPS):通过FPGA原型搭建实际运行平台,支持高容量、高速的软件验证与硬件回归;
  • 统一接口与转接模块(如Transactor、Speed Adapter):连接多个平台,提升平台间的协同性与验证覆盖范围。

借助这些工具,开发团队可实现从早期建模到硅前验证的连续验证路径,提升验证效率与发现Bug的能力。

4.3 实践案例:Microsoft Die-to-Die验证架构

Microsoft在SNUG 2024上展示了一套典型的多Die验证实践,其核心思路为:

  • 单Die原型构建:每个单Die设计需要使用60个FPGA,采用模块化流程加快构建速度;
  • 统一实现流程:同一套项目/流程支持单Die与双Die两种部署场景,具备高度灵活性;
  • 物理层布线方案:通过在两个机架间布线,使其既可独立运行为两个单Die系统,也可组合为一个双Die系统,无需额外实现工作;
  • 计算与存储资源本地化封装:为大规模部署做准备,支持多副本快速部署。

该案例说明,模块化验证平台在大规模部署、一致性验证与配置灵活性方面,具备明显优势,能够显著缩短开发周期并提高系统交付能力。

五、未来展望:面向Chiplet规模化发展的验证战略

5.1 构建从架构到硅的全栈验证闭环

面对大规模多核、多Die设计带来的验证复杂性,验证策略正从单点工具走向全流程协同,Synopsys提出了一套完整的多Die验证战略框架,覆盖芯片全生命周期的关键环节:

  • 早期架构探索(Early Architecture Exploration)
    通过建模与分区,在系统早期阶段对性能、功耗和热指标进行优化,避免后期设计返工;
  • 设计实现(Design Implementation)
    实现Die与封装的协同优化,通过统一平台覆盖从设计探索到签核的整个流程;
  • 软件开发与系统验证(Software Development & Validation)
    借助高性能仿真器与原型平台,支持快速的软件开发、调试与系统级验证;
  • 硅IP平台(Silicon IP)
    提供高质量、量产验证的IP库,支持2.5D与3D芯粒集成封装的标准与先进工艺;
  • 制造与健康管理(Manufacturing & Health)
    从生产测试到实际部署,提供系统健康监测与可靠性保障,包括测试生成、缺陷分析与修复能力。

这套验证体系从系统定义到成品交付,构建起了一个面向芯粒规模化发展的验证闭环。

5.2 支持软件驱动系统验证的未来平台演进

随着SoC设计越来越以软件为中心,验证平台正从“功能导向”向“软件导向”过渡。这一转变在未来将呈现以下几个演进趋势:

  • 高容量、快速响应的多平台验证引擎
    利用虚拟化、仿真和原型引擎的融合,快速支撑30B门级别的系统验证;
  • 软件驱动的测试生成机制
    通过高层建模与指令级测试系统,缩短Bring-up周期,发现更深层次的问题;
  • 跨平台异构协同验证
    不同验证平台之间的接口标准化(如UCIe)、流程统一化将提升验证效率;
  • 芯粒模型的提前部署与复用
    提前构建虚拟芯粒模型,供软件团队并行开发,提升资源复用率与软件质量。

Synopsys提出的多平台组合策略,正是为满足未来验证需求而设计,具备极强的前瞻性与可演化能力。

5.3 模块化验证推动产业链协同创新

模块化验证不仅是技术能力的提升,更重塑了整个芯粒生态的合作方式:

  • IP团队 可独立构建高性能原型平台,专注优化子系统;
  • 系统集成团队 可灵活组合多个原型,完成全芯片集成与验证;
  • 软件团队 可在早期获取真实架构模型,定位复杂系统级Bug;
  • 制造与测试团队 可依据模块验证结果,提升出厂良率与可靠性;

这种跨角色、跨阶段的协同创新机制,将成为未来芯粒系统开发的基本模式。