引言

随着大语言模型(LLM)在生成式AI领域的广泛应用,计算系统面临前所未有的架构性挑战。当前主流AI推理任务,尤其在Transformer模型中,以矩阵-向量乘法(GEMV)为主的低算术强度操作日益成为性能瓶颈,系统呈现出明显的内存带宽受限特征。传统以算力为中心的加速器设计逐渐失效,“内存墙”问题正成为AI算力体系的关键限制因素

面对这一趋势,SK hynix提出以Processing-in-MemoryPIM)为核心的算力重构路径,率先推出基于GDDR6与LPDDR的Accelerator-in-Memory(AiM)系列产品,并围绕数据中心与终端侧应用打造了完整的AiMX系统解决方案。该技术不仅在硬件层面实现高带宽、低能耗计算协同,也在系统与软件生态上提供面向未来的大模型推理平台基础。

本报告将系统梳理海力士在内存计算领域的架构创新、产品布局与应用拓展路径,展望PIM作为下一代AI算力引擎的核心地位与产业化前景。

以下是对报告内容的梳理总结——————————————

一、AI时代的内存困境与转机



1.1 LLM架构特性揭示的“内存墙”本质



在当前AI推理场景中,尤其是大语言模型(LLM)的输出阶段,整体计算高度依赖于矩阵-向量乘法(GEMV)操作。这一操作具有典型的低算术强度(Arithmetic Intensity)特征,即每单位数据传输所对应的计算量较低,从而导致系统整体呈现出内存带宽受限(Memory Bandwidth Bound)的性能瓶颈。

具体来看,Transformer架构中的多头注意力(Multi-head Attention, MHA)与全连接层(Fully-Connected Layer, FC)都依赖GEMV。尽管卷积神经网络(CNN)主要为计算密集型任务,但LLM在推理阶段的性能瓶颈几乎全部转移至内存带宽层面。

SK hynix通过实验模型分析指出,在batch size为1的推理过程中,GEMV操作成为限制LLM性能的主要环节。以输出token为例,绝大多数操作为内存带宽敏感型运算,导致传统处理器与GPU在执行这类任务时出现“算力有余而带宽不足”的现象。

1.2 高能耗与算力扩展性的可持续性问题



在LLM的实际部署中,模型规模指数级增长已成为行业趋势。然而,这种规模扩张带来了显著的运维成本(Operating Expenditure, OPEX)提升,特别是在数据中心层面。以单个模型为例,其推理过程所需的内存访问频繁且分布广泛,传统系统架构已难以有效承载。

从持续性(Sustainability)角度分析,现有计算范式难以满足LLM时代的带宽密度、能效比与成本控制三者的协同需求。尽管硬件加速器(如GPU)不断提升峰值算力,但由于大部分操作处于内存带宽限制下,造成系统整体性能利用率持续走低。

这一趋势迫切呼唤一种 突破“内存墙”的新范式——即在内存中集成计算能力,打破存储与计算之间的高频数据搬运瓶颈,构建真正意义上的内存计算协同体系。

二、AiM与AiMX:海力士的内存计算架构革命



2.1 Accelerator-in-Memory (AiM):实现真正意义上的全Bank并行



SK hynix推出的首款基于GDDR6的Processing-in-Memory(PIM)产品AiM,通过架构级创新,实现了“True All-Bank Parallelism”(全Bank并行)。该芯片在单Die层级提供以下规格:

  • 外部带宽:32 GB/s
  • 内部带宽:512 GB/s
  • 运算能力:512 GFLOPS(BF16精度)
  • 工作频率:1 GHz
  • 数值精度支持:BF16

该设计可在Burst模式下实现峰值带宽与计算能力,突破了传统存储设备中Bank访问瓶颈。

AiM封装基于GDDR6技术,可与Xilinx Virtex Ultrascale+(VU9P)FPGA协同集成,形成高度兼容的内存计算模块,为数据中心与边缘设备提供灵活的嵌入式算力支持。

2.2 AiMX原型卡:打通GPU协同的内存计算通道



SK hynix进一步基于AiM芯片打造了AiMX卡原型,设计规格如下:

  • Host接口:PCIe Gen3 x8x8(bifurcated)
  • 外形规格:FHFL(兼容NVIDIA A100/A30)
  • 配置:2块FPGA,搭载16颗AiM芯片
  • 总内存容量:16GB
  • 带宽能力:170 GB/s(@2.67Gbps)

AiMX卡与GPU形成推理任务协同分工:在batch size > 1的场景下,全连接(FC)操作仍由GPU处理,而多头注意力(MHA)则通过AiMX加速执行,从而在成本与性能之间取得平衡。

当前AiMX的架构已在多项国际会议中展示成果,包括ISSCC、JSSC、HC35与SC23等,其在大模型推理中的应用表现被广泛关注。

2.3 Extended AiMX:面向大规模LLM部署的系统扩展路径



为了满足更高容量与更大模型的需求,SK hynix提出了Extended AiMX,其核心参数包括:

  • 配置:2块FPGA,集成32颗AiM芯片
  • 内存容量:32GB
  • 带宽:170 GB/s(@2.67Gbps)
  • 散热:被动冷却设计
  • 排布方式:非JEDEC Rank-like GDDR6配置,突破FPGA IO瓶颈限制

在实际性能评估中,通过与NVIDIA H100(80GB)进行容量匹配,采用模型OPT3-30B作为基准,验证了当FC层由GPU处理、MHA由AiMX加速时,系统整体性能达到高度协同优化,展示出AiMX架构在大模型场景下的实用价值。

三、数据中心与终端侧的应用演进趋势



3.1 数据中心:从小批量到大批量的推理架构演变



在大语言模型(LLM)推理中,随着批量大小(Batch Size)的增大,推理计算的算术特征从内存带宽受限的GEMV(矩阵-向量乘法)逐步转向计算密集的GEMM(矩阵-矩阵乘法)。以全连接层(Fully-Connected Layer, FC)为例:

  • Batch Size为1时:推理中主要为GEMV,系统表现出内存受限特征。
  • Batch Size提升至N时:FC层中GEMV演化为GEMM,逐渐具备较高算术强度。

然而,值得注意的是,Transformer结构中的多头注意力机制(MHA)无论在何种Batch Size下,仍保持GEMV特性,即持续处于Memory-Bound区域。

通过对不同Batch Size的性能占比趋势分析发现:

  • 当Batch Size从1增加至32时,FC层从Memory-Bound逐步转向Compute-Bound;
  • 而MHA占比持续上升,成为主导负载,始终保持Memory-Bound状态。

这种结构性特点表明:即使GPU能够有效加速GEMM计算,MHA部分仍需依赖专用的高带宽内存解决方案进行加速,从而驱动了AiMX架构在数据中心的应用价值。

3.2 多头注意力(MHA)在AiM中的并行优化机制



针对MHA在Transformer中的关键地位,SK hynix提出了基于AiM的多头注意力处理策略。其核心在于:

  • 矩阵维度不对称:查询(Q)、键(K)、值(V)矩阵中,QKT和SV操作分别涉及较小输入和输出向量;
  • 并行处理多个Heads:AiM结构能够将每个注意力Head并行调度,加速推理效率;
  • Key/Value矩阵的存储优化
    • Key向量集中写入单一Bank;
    • Value向量均匀分布写入多个Banks,实现带宽均衡;

这种AiM感知的Key/Value矩阵布局策略,充分利用了其“全Bank并行访问”特性,为MHA计算提供了结构层级的带宽调度优化。

3.3 On-device AI:推理本地化趋势与带宽挑战



SK hynix预测,随着大模型在智能终端(如手机、可穿戴设备)上的部署需求上升,On-device AI将成为新兴增长点。该趋势的核心动因包括:

  • 对隐私的增强需求;
  • 对低延迟响应的期望;
  • 网络带宽与云服务依赖的规避;
  • 设备功耗限制对高能效架构的诉求。

从模型规模与带宽需求演进来看:

年份代表模型规模所需带宽(GB/s)
20237B~150
202634B~350

SK hynix市场预测表明,到2028年,配备On-device AI的智能手机将占比近50%。与此同时,终端侧设备对于内存的能效密度、功耗控制、带宽适配均提出极高要求,传统LPDDR内存逐渐难以支撑,亟需引入内存内计算(PIM)技术予以补强。

四、系统架构设计的前瞻性考量

为应对AI推理工作负载持续增长所带来的能效、带宽与计算复杂性挑战,SK hynix围绕AiM芯片本体设计、SoC系统整合软件支持生态提出了面向未来的三维优化路径。该设计原则旨在确保AiM与AiMX平台具备跨代兼容性、灵活扩展性与生态可持续性。

4.1 AiM架构的功能拓展与精度多样性



AiM未来架构的发展重点包括计算功能的丰富化数值精度的异构化支持。具体方向如下:

  • 计算功能支持
    • 除GEMV外,进一步扩展至GEMM、GQA(Grouped Query Attention)等形式;
    • 提高对批处理(Batch)操作的适配性;
    • 拓展至多类型模型负载,探索在图神经网络等新架构中的应用可能。
  • 封装创新
    • 探索**Hybrid Bonding(混合键合)**等先进封装技术,以提升芯片堆叠密度与带宽传输效率。
  • 数据精度支持
    • 支持多种精度格式,如INT4、INT8、BF16、FP16、FP32、MX等;
    • 引入Heterogeneous Precision(异构精度处理)机制,实现动态权重缩放(Scale Factor)与计算灵活性,以提升整体系统效率。



4.2 SoC整合:功耗-性能协同与仲裁机制优化



在系统集成层面,如何在功耗受限约束下实现高效算力调度,是AiM架构在SoC级部署的核心课题。

  • 功耗热设计优化
    • 引入动态功率调节机制,包括MAC之间的电源门控与热控制策略;
    • 精细化管理MAC单元与Bank之间的访问路径,提升数据本地化访问效率。
  • 数据仲裁机制
    • 采用粗粒度的Normal与PIM访问交错调度,降低Bank切换开销;
    • 优化写入请求的排队与释放机制(Write Request Draining),提高整体吞吐率;
    • 行切换(Row Switch)优化策略,兼顾读取延迟与功耗控制。

该设计目标是实现在功耗受限SoC场景下,达到类似数据中心级别的内存计算效率,为终端设备提供定制化高性能加速路径。

4.3 软件生态:PIM感知的内存管理机制



软件层面的优化对于PIM架构的落地与扩展至关重要。SK hynix提出了以下软件协同策略:

  • 大页内存配置
    • 通过配置Large Page Size,实现权重数据在AiM架构下的Bank感知式布局,提高访问并行度。
  • 内存调度与换页策略
    • 引入PIM-Aware Memory Swap Policy,区分PIM区域与常规内存区域的调度方式;
    • 在磁盘与DRAM之间实现PIM任务与数据的高效迁移,提升数据驻留效率。

上述机制确保AiM架构不仅具备硬件上的性能优势,也在系统调度与运行时环境中实现最大化利用,为用户提供可控、可复用、可移植的计算平台基础。

五、结语:AI内存革命的起点与未来布局

在AI算力演进的大背景下,SK hynix通过AiM与AiMX架构的持续迭代,构建了从芯片到系统、从服务器到终端的全栈式内存计算解决方案。该路径不仅代表了存算协同范式的实际落地,更预示着未来AI推理性能优化的主阵地正逐步向内存侧转移。

5.1 多元产品路径:从数据中心到边缘设备的全面部署



SK hynix已经形成了完整的PIM产品演进序列:

  • 2020:推出基于GDDR6的首款AiM芯片,标志着内存计算从理论走向产品化;
  • 2022–2023年:AiMX卡原型发布,支持与主流GPU平台协同部署;
  • 2024年以后
    • 发布LPDDR-AiM,面向终端侧On-device AI应用;
    • 提出Extended AiMX系统,匹配更大模型、更高能效比需求;
    • 推动高容量、系统级解决方案的产业化部署。

该演进路线以芯片设计–系统集成–应用协同为主线,横跨服务器与终端场景,打通了存储与计算的结构性瓶颈。

5.2 SDK与生态开放:推动产业协同与标准共建



为了推动AiM技术的规模化落地,SK hynix已发布完整的AiM软件开发工具包(SDK),并通过全球开发者大会(如2024年9月San Jose、10月San Jose、11月Atlanta)展示实际DEMO与联合验证成果。

SDK支持:

  • 各类模型转换与编译工具;
  • PIM任务调度API与性能评估模块;
  • 与主流AI框架的接口适配支持。

同时,SK hynix正积极开展与系统厂商、云服务提供商、芯片设计企业的合作,推动PIM生态从芯片创新走向行业共建

5.3 技术跃迁的起点:“Beyond Memory”的战略构想



SK hynix提出的“Beyond Memory”愿景明确指出,未来PIM不再仅仅是内存的增强功能,而是AI算力体系的重要组成部分。基于此,SK hynix正在探索以下技术方向:

  • Hybrid Bonding:用于构建更紧密的数据路径与算力单元协同;
  • CXL-PIM架构:提升内存互联灵活性,实现异构系统间的带宽共享;
  • 异构精度计算:通过AI模型特性驱动计算资源分配动态优化;
  • 系统级能效建模与调度:实现跨层级PIM任务感知与功耗控制。

随着模型规模与任务复杂度的持续提升,传统处理器架构将逐步失去边际效率,PIM将成为弥合性能瓶颈与能效鸿沟的关键路径。

总结而言,AiM与AiMX不仅是内存产品的演进,更代表了一种AI时代系统架构的重构思维。从存算分离到存算融合,SK hynix正引领一场深层次的算力范式变革。