引言
随着摩尔定律逐步逼近物理极限,芯粒(Chiplet)与多Die集成架构正成为推动半导体技术演进的关键路径。面对跨Die互联、高度集成、多核并行的软件定义计算系统,传统的芯片验证方法已难以满足系统复杂性、迭代速度与功耗性能的多重需求。Synopsys在2025年Chiplet Summit上提出的模块化硬件辅助验证(Modular Hardware-Assisted Verification, 简称HAV)方法,正是为应对这一验证危机所构建的新范式。本报告系统梳理了芯粒架构所面临的验证挑战、验证工具与流程的演进路径,以及模块化HAV在设计架构探索、原型构建、系统验证与软件协同中的核心价值,旨在为行业提供一套面向未来的验证战略框架与技术路径指引。
以下是对报告内容的梳理总结——————————————
一、行业背景与技术变革趋势
1.1 芯粒推动半导体进入下一轮变革浪潮
第二届Chiplet Summit展示了半导体领域的下一轮重大变革趋势。基于模块化的芯粒(Chiplet)架构正成为系统级复杂度应对方案的关键。在此背景下,芯片设计面临着日益增长的复杂性,包括晶体管数量、模块数量以及所涉及的通信协议类型的急剧扩张。例如,NVIDIA的Blackwell架构和GB200超级芯片等新一代设计,体现了系统构建规模与复杂性均达到前所未有的水平。
1.2 向Multi-Die架构的转型动因
多Die架构的转型动因主要体现在以下几个方面:
- 系统功能的加速扩展:通过芯粒化实现更具性价比的扩展路径;
- 重用验证过的设计与Die:降低风险,加快上市时间;
- 功耗优化:在增加吞吐的同时实现系统功耗的降低;
- 产品组合灵活性增强:更快速地构建产品变体,满足市场多样化需求。
1.3 多样化用例推动架构演化
芯粒架构使得在多个市场垂直领域中,构建不同形态的系统成为可能:
- Disaggregate(拆分):将SoC拆分为IO或缓存芯粒以优化良率和成本;
- Aggregate(聚合):将多个功能整合在不同工艺节点和封装形态下;
- Split(分裂):将大芯片分裂以突破光罩限制,实现更大容量系统;
- Scale-Up(扩展):通过紧耦合的Die间结构扩展处理器/加速器能力。
1.4 多Die架构支持变革性产品落地
以商业产品为例,芯粒技术已支撑多种变革型产品的实现:
- AMD 的3D V-Cache混合键合方案实现了能效提升3倍、互联密度提升15倍;
- Intel 的异构计算平台采用EMIB和Foveros集成,实现了跨47个Tile、5个工艺节点的设计;
- Apple 的个人计算芯片整合2个Die、1140亿个晶体管,实现2.5TB/s的Die间带宽;
- NVIDIA 的下一代AI计算平台(如Gen AI Superchip)在2个Die内集成超过2000亿晶体管,实现3.2TB/s的片间互联。
1.5 系统验证面临“房间级超级计算机”的挑战
典型如Grace Blackwell架构的系统,其包含130万亿个晶体管、2,592个CPU核心、1.4 Exaflops的性能,拥有14TB内存和1.2PB/s的带宽——已达到“一个房间级超级计算机”的系统复杂度。这类系统的验证,已超出现有工具链和方法学的常规能力边界,构成2025年及之后系统验证的关键挑战。
二、芯粒系统验证面临的核心挑战
2.1 多维复杂性构成验证难题核心
在芯粒与多Die架构逐渐成为主流设计范式的背景下,验证工作所面临的挑战呈现出系统性、多层级与跨平台特征。从指令集架构(ISA)的验证开始,延伸到微架构级别的新指令功能性验证、CPU阵列的多核一致性问题,最终至SoC层面的整体功能验证和系统级协同。
更进一步,验证流程还需覆盖以下方面:
- 多核系统一致性验证:确保所有核心协同正常工作;
- 存储一致性机制验证:特别是在共享内存架构中,保证缓存一致性;
- 多Die互联验证:跨芯粒的数据流与协议交互正确性验证;
- 系统接口验证:如PCIe、Ethernet、USB、HDMI等标准接口;
- 软硬协同验证:嵌入式软件在系统中的早期验证与调试;
- 后硅验证(Post-Silicon Validation):保证产品最终在真实物理环境中无缺陷运行。
验证路径需跨越从基础外设到CPU集群、AI加速器、NoC、外部互联、安全模块等全系统组件。最终验证问题集中于一点:多芯粒能否稳定、正确地协同工作?
2.2 验证生产率严重滞后于芯片复杂性增长
随着晶体管数量指数级扩张,传统验证方法已难以支撑现代系统的规模。典型代表如NVIDIA Grace Blackwell系统,集成了130万亿个晶体管,相比1994年的Pentium P54C(仅300万晶体管),其复杂度增加了超过五个数量级。
回顾行业发展,测试生成与验证手段经历以下阶段:
- 1970s–1990s:主要依赖手动测试和硬件定向测试方法;
- 2000s:进入SystemVerilog及约束随机测试、覆盖率驱动验证阶段;
- 2020s:采用Accellera PSS等形式化验证方法,融入软件驱动和指令集验证;
- 至今:验证所需周期和复杂性正向千兆(10⁹)甚至拍(10¹⁵)周期级别跃迁。
尽管验证工具不断升级,但测试生成生产率与验证需求之间的鸿沟日益扩大。测试生成速度提升了3个数量级,但验证需求增长了5个数量级,留下了两个数量级的“生产力缺口”,增加了硅片级缺陷“逃逸”的风险,严重影响芯片上市时间与质量保证。
2.3 多Die系统的验证成为全栈性挑战
芯粒化设计并非简单模块拼接,而是一个自底向上和自顶向下多维协同的系统性挑战:
- 架构级的系统建模与动态分析:需在早期阶段完成带宽、延迟、互联结构的评估;
- 分区与工艺选择:依据负载映射与数据流特性,决定芯粒划分与接口分布;
- 性能与功耗指标评估:从单Die到系统级,量化多Die架构对系统关键KPI的影响;
- 早期软件开发与调试:必须提前提供虚拟模型支持上层软件验证与混合调试;
- 验证平台适配:实现形式化验证、仿真、原型、在回路仿真等多平台无缝协同。
系统验证由IP团队、子系统团队和系统整合团队协作完成,验证维度从功能正确性延展至性能、功耗、安全性与可靠性等系统属性,是芯粒时代的关键门槛与价值创造点。
三、模块化硬件辅助验证(Modular HAV)的战略意义
3.1 模块化理念成为芯粒系统验证的核心范式
随着芯片复杂度持续攀升,传统“整体式”验证方式已难以胜任现代多Die系统的构建需求。模块化验证策略应运而生,成为提升验证效率、实现验证闭环的关键途径。该策略强调以下核心特征:
- 子系统并行开发与验证:不同团队可并行构建并验证各自负责的功能子系统;
- 系统级集成验证:在验证子系统正确性的基础上,逐步集成形成完整芯片系统;
- 自然继承模块化设计结构:从功能设计模块、到验证环境、再到原型平台的模块划分,实现方法学与工具链的无缝衔接。
在此过程中,形式验证、仿真验证等传统验证方式,正在逐步过渡并扩展至原型验证与仿真加速平台,成为完整的验证闭环流程。
3.2 ProtoCompiler与HAPS平台实现模块化验证流程落地
Synopsys通过ProtoCompiler软件和HAPS FPGA平台,提供了完整的模块化硬件辅助验证工具链,具备以下能力:
- 用户引导的时序感知式分区:根据系统RTL,按时序约束和逻辑划分出独立子系统;
- 子系统独立项目构建:每个子系统形成独立的Netlist工程,便于独立开发与调试;
- 自动或半自动FPGA映射:可依据性能与资源需求,将子系统映射至对应的FPGA上。
该方法采用双阶段(Two-Pass)时序驱动分区流程:
- 第一阶段:完成整体系统的粗粒度模块划分与时序预算分析;
- 第二阶段:对每个子系统进行具体FPGA映射与资源分配,实现并行构建。
该策略显著提升了原型验证平台的构建效率,增强系统验证的可预测性与可扩展性。
3.3 多核/多线程架构对验证提出新要求
现代SoC及芯粒系统普遍采用高度复制的执行单元(如CPU、GPU、AI加速器),同时运行复杂的多线程软件。在这一背景下,验证平台需要满足以下需求:
- 支持大型多核原型平台:以支持复杂软件在真实硬件配置上的运行;
- 快速发现复杂多线程Bug:许多软件缺陷仅在高并发硬件环境下才能显现;
- 早期调试与验证软件逻辑:通过芯粒虚拟模型与原型平台,支持上层应用与操作系统的前置调试。
模块化原型平台不仅降低了Bring-up时间,还显著提升了软件开发团队的问题定位效率。
3.4 模块化原型验证的系统性价值
模块化硬件辅助验证不仅是技术手段的升级,更在验证流程与组织架构上带来深远影响:
- 可扩展性与预测性:各子系统可独立构建、调试,再集成到整系统中,验证过程更具节奏感与稳定性;
- 增量构建机制:变更仅需重建相应子模块,支持比特流(bitfile)重用,尤其适用于多核系统的复制性场景;
- 验证本地化与问题定位加速:支持局部调试、软件Bring-up、定位边界问题等多维操作;
- 适配芯粒与多Die设计范式:从架构层级到FPGA平台架构,全面支持现代SoC设计的模块化构建逻辑。
综上,模块化硬件辅助验证正在成为应对Chiplet时代复杂系统验证挑战的关键工具和战略方向,推动从IP团队到系统集成商、从架构师到软件工程师的全栈协同创新。
四、模块化验证平台的构建与实践路径
4.1 多Die架构的建模与原型设计流程
面对多Die系统的复杂性,构建有效的验证平台需从早期系统建模阶段就确立模块化策略,具体包括以下几个步骤:
- 工作负载定义:明确应用需求,包括端到端的延迟、吞吐量等关键指标;
- 架构定义:设定硬件性能与功耗等目标,定义所涉及的关键组件,如SRAM、HBM、NoC与IP核等;
- 分区与工艺选择:将系统合理划分为多个芯粒(Chiplet),并依据数据结构与流向,确定Die间通信模式,优化性能与功耗;
- 系统原型构建:形成完整的多Die原型平台,进行组件级与系统级的验证,确保系统建模精度与可执行性;
- 技术约束与物理实现:将功能需求转化为工艺约束,如面积、封装形状、长宽比等,指导后续实现与验证工作。
这一流程不仅可用于传统功能验证,也能有效支撑性能评估、功耗建模与架构选型,是面向芯粒架构的全生命周期验证支撑体系。
4.2 多平台硬件辅助验证工具协同整合
Synopsys构建了一个多平台、异构集成的硬件辅助验证体系,以应对芯粒设计中从架构探索到系统验证的全流程挑战。该体系包括以下关键平台:
- 虚拟原型(Virtual Prototyping):通过Virtualizer创建可编程的虚拟平台,实现早期软件开发、性能建模与系统功能仿真;
- 混合验证平台(Hybrid with ZeBu):将Virtualizer与ZeBu仿真器联动,支持高性能仿真与在回路调试;
- 原型验证平台(HAPS):通过FPGA原型搭建实际运行平台,支持高容量、高速的软件验证与硬件回归;
- 统一接口与转接模块(如Transactor、Speed Adapter):连接多个平台,提升平台间的协同性与验证覆盖范围。
借助这些工具,开发团队可实现从早期建模到硅前验证的连续验证路径,提升验证效率与发现Bug的能力。
4.3 实践案例:Microsoft Die-to-Die验证架构
Microsoft在SNUG 2024上展示了一套典型的多Die验证实践,其核心思路为:
- 单Die原型构建:每个单Die设计需要使用60个FPGA,采用模块化流程加快构建速度;
- 统一实现流程:同一套项目/流程支持单Die与双Die两种部署场景,具备高度灵活性;
- 物理层布线方案:通过在两个机架间布线,使其既可独立运行为两个单Die系统,也可组合为一个双Die系统,无需额外实现工作;
- 计算与存储资源本地化封装:为大规模部署做准备,支持多副本快速部署。
该案例说明,模块化验证平台在大规模部署、一致性验证与配置灵活性方面,具备明显优势,能够显著缩短开发周期并提高系统交付能力。
五、未来展望:面向Chiplet规模化发展的验证战略
5.1 构建从架构到硅的全栈验证闭环
面对大规模多核、多Die设计带来的验证复杂性,验证策略正从单点工具走向全流程协同,Synopsys提出了一套完整的多Die验证战略框架,覆盖芯片全生命周期的关键环节:
- 早期架构探索(Early Architecture Exploration)
通过建模与分区,在系统早期阶段对性能、功耗和热指标进行优化,避免后期设计返工; - 设计实现(Design Implementation)
实现Die与封装的协同优化,通过统一平台覆盖从设计探索到签核的整个流程; - 软件开发与系统验证(Software Development & Validation)
借助高性能仿真器与原型平台,支持快速的软件开发、调试与系统级验证; - 硅IP平台(Silicon IP)
提供高质量、量产验证的IP库,支持2.5D与3D芯粒集成封装的标准与先进工艺; - 制造与健康管理(Manufacturing & Health)
从生产测试到实际部署,提供系统健康监测与可靠性保障,包括测试生成、缺陷分析与修复能力。
这套验证体系从系统定义到成品交付,构建起了一个面向芯粒规模化发展的验证闭环。
5.2 支持软件驱动系统验证的未来平台演进
随着SoC设计越来越以软件为中心,验证平台正从“功能导向”向“软件导向”过渡。这一转变在未来将呈现以下几个演进趋势:
- 高容量、快速响应的多平台验证引擎
利用虚拟化、仿真和原型引擎的融合,快速支撑30B门级别的系统验证; - 软件驱动的测试生成机制
通过高层建模与指令级测试系统,缩短Bring-up周期,发现更深层次的问题; - 跨平台异构协同验证
不同验证平台之间的接口标准化(如UCIe)、流程统一化将提升验证效率; - 芯粒模型的提前部署与复用
提前构建虚拟芯粒模型,供软件团队并行开发,提升资源复用率与软件质量。
Synopsys提出的多平台组合策略,正是为满足未来验证需求而设计,具备极强的前瞻性与可演化能力。
5.3 模块化验证推动产业链协同创新
模块化验证不仅是技术能力的提升,更重塑了整个芯粒生态的合作方式:
- IP团队 可独立构建高性能原型平台,专注优化子系统;
- 系统集成团队 可灵活组合多个原型,完成全芯片集成与验证;
- 软件团队 可在早期获取真实架构模型,定位复杂系统级Bug;
- 制造与测试团队 可依据模块验证结果,提升出厂良率与可靠性;
这种跨角色、跨阶段的协同创新机制,将成为未来芯粒系统开发的基本模式。