突破“内存墙”——海力士引领AI算力时代的内存创新路径

引言

随着大语言模型（LLM）在生成式AI领域的广泛应用，计算系统面临前所未有的架构性挑战。当前主流AI推理任务，尤其在Transformer模型中，以矩阵-向量乘法（GEMV）为主的低算术强度操作日益成为性能瓶颈，系统呈现出明显的内存带宽受限特征。传统以算力为中心的加速器设计逐渐失效，“内存墙”问题正成为AI算力体系的关键限制因素。

面对这一趋势，SK hynix提出以Processing-in-Memory（PIM）为核心的算力重构路径，率先推出基于GDDR6与LPDDR的Accelerator-in-Memory（AiM）系列产品，并围绕数据中心与终端侧应用打造了完整的AiMX系统解决方案。该技术不仅在硬件层面实现高带宽、低能耗计算协同，也在系统与软件生态上提供面向未来的大模型推理平台基础。

本报告将系统梳理海力士在内存计算领域的架构创新、产品布局与应用拓展路径，展望PIM作为下一代AI算力引擎的核心地位与产业化前景。

以下是对报告内容的梳理总结——————————————

一、AI时代的内存困境与转机

1.1 LLM架构特性揭示的“内存墙”本质

在当前AI推理场景中，尤其是大语言模型（LLM）的输出阶段，整体计算高度依赖于矩阵-向量乘法（GEMV）操作。这一操作具有典型的低算术强度（Arithmetic Intensity）特征，即每单位数据传输所对应的计算量较低，从而导致系统整体呈现出内存带宽受限（Memory Bandwidth Bound）的性能瓶颈。

具体来看，Transformer架构中的多头注意力（Multi-head Attention, MHA）与全连接层（Fully-Connected Layer, FC）都依赖GEMV。尽管卷积神经网络（CNN）主要为计算密集型任务，但LLM在推理阶段的性能瓶颈几乎全部转移至内存带宽层面。

SK hynix通过实验模型分析指出，在batch size为1的推理过程中，GEMV操作成为限制LLM性能的主要环节。以输出token为例，绝大多数操作为内存带宽敏感型运算，导致传统处理器与GPU在执行这类任务时出现“算力有余而带宽不足”的现象。

1.2 高能耗与算力扩展性的可持续性问题

在LLM的实际部署中，模型规模指数级增长已成为行业趋势。然而，这种规模扩张带来了显著的运维成本（Operating Expenditure, OPEX）提升，特别是在数据中心层面。以单个模型为例，其推理过程所需的内存访问频繁且分布广泛，传统系统架构已难以有效承载。

从持续性（Sustainability）角度分析，现有计算范式难以满足LLM时代的带宽密度、能效比与成本控制三者的协同需求。尽管硬件加速器（如GPU）不断提升峰值算力，但由于大部分操作处于内存带宽限制下，造成系统整体性能利用率持续走低。

这一趋势迫切呼唤一种突破“内存墙”的新范式——即在内存中集成计算能力，打破存储与计算之间的高频数据搬运瓶颈，构建真正意义上的内存计算协同体系。

二、AiM与AiMX：海力士的内存计算架构革命

2.1 Accelerator-in-Memory (AiM)：实现真正意义上的全Bank并行

SK hynix推出的首款基于GDDR6的Processing-in-Memory（PIM）产品AiM，通过架构级创新，实现了“True All-Bank Parallelism”（全Bank并行）。该芯片在单Die层级提供以下规格：

外部带宽：32 GB/s
内部带宽：512 GB/s
运算能力：512 GFLOPS（BF16精度）
工作频率：1 GHz
数值精度支持：BF16

该设计可在Burst模式下实现峰值带宽与计算能力，突破了传统存储设备中Bank访问瓶颈。

AiM封装基于GDDR6技术，可与Xilinx Virtex Ultrascale+（VU9P）FPGA协同集成，形成高度兼容的内存计算模块，为数据中心与边缘设备提供灵活的嵌入式算力支持。

2.2 AiMX原型卡：打通GPU协同的内存计算通道

SK hynix进一步基于AiM芯片打造了AiMX卡原型，设计规格如下：

Host接口：PCIe Gen3 x8x8（bifurcated）
外形规格：FHFL（兼容NVIDIA A100/A30）
配置：2块FPGA，搭载16颗AiM芯片
总内存容量：16GB
带宽能力：170 GB/s（@2.67Gbps）

AiMX卡与GPU形成推理任务协同分工：在batch size > 1的场景下，全连接（FC）操作仍由GPU处理，而多头注意力（MHA）则通过AiMX加速执行，从而在成本与性能之间取得平衡。

当前AiMX的架构已在多项国际会议中展示成果，包括ISSCC、JSSC、HC35与SC23等，其在大模型推理中的应用表现被广泛关注。

2.3 Extended AiMX：面向大规模LLM部署的系统扩展路径

为了满足更高容量与更大模型的需求，SK hynix提出了Extended AiMX卡，其核心参数包括：

配置：2块FPGA，集成32颗AiM芯片
内存容量：32GB
带宽：170 GB/s（@2.67Gbps）
散热：被动冷却设计
排布方式：非JEDEC Rank-like GDDR6配置，突破FPGA IO瓶颈限制

在实际性能评估中，通过与NVIDIA H100（80GB）进行容量匹配，采用模型OPT3-30B作为基准，验证了当FC层由GPU处理、MHA由AiMX加速时，系统整体性能达到高度协同优化，展示出AiMX架构在大模型场景下的实用价值。

三、数据中心与终端侧的应用演进趋势

3.1 数据中心：从小批量到大批量的推理架构演变

在大语言模型（LLM）推理中，随着批量大小（Batch Size）的增大，推理计算的算术特征从内存带宽受限的GEMV（矩阵-向量乘法）逐步转向计算密集的GEMM（矩阵-矩阵乘法）。以全连接层（Fully-Connected Layer, FC）为例：

Batch Size为1时：推理中主要为GEMV，系统表现出内存受限特征。
Batch Size提升至N时：FC层中GEMV演化为GEMM，逐渐具备较高算术强度。

然而，值得注意的是，Transformer结构中的多头注意力机制（MHA）无论在何种Batch Size下，仍保持GEMV特性，即持续处于Memory-Bound区域。

通过对不同Batch Size的性能占比趋势分析发现：

当Batch Size从1增加至32时，FC层从Memory-Bound逐步转向Compute-Bound；
而MHA占比持续上升，成为主导负载，始终保持Memory-Bound状态。

这种结构性特点表明：即使GPU能够有效加速GEMM计算，MHA部分仍需依赖专用的高带宽内存解决方案进行加速，从而驱动了AiMX架构在数据中心的应用价值。

3.2 多头注意力（MHA）在AiM中的并行优化机制

针对MHA在Transformer中的关键地位，SK hynix提出了基于AiM的多头注意力处理策略。其核心在于：

矩阵维度不对称：查询（Q）、键（K）、值（V）矩阵中，QKT和SV操作分别涉及较小输入和输出向量；
并行处理多个Heads：AiM结构能够将每个注意力Head并行调度，加速推理效率；
Key/Value矩阵的存储优化：
- Key向量集中写入单一Bank；
- Value向量均匀分布写入多个Banks，实现带宽均衡；

这种AiM感知的Key/Value矩阵布局策略，充分利用了其“全Bank并行访问”特性，为MHA计算提供了结构层级的带宽调度优化。

3.3 On-device AI：推理本地化趋势与带宽挑战

SK hynix预测，随着大模型在智能终端（如手机、可穿戴设备）上的部署需求上升，On-device AI将成为新兴增长点。该趋势的核心动因包括：

对隐私的增强需求；
对低延迟响应的期望；
网络带宽与云服务依赖的规避；
设备功耗限制对高能效架构的诉求。

从模型规模与带宽需求演进来看：

年份	代表模型规模	所需带宽（GB/s）
2023	7B	~150
2026	34B	~350

SK hynix市场预测表明，到2028年，配备On-device AI的智能手机将占比近50%。与此同时，终端侧设备对于内存的能效密度、功耗控制、带宽适配均提出极高要求，传统LPDDR内存逐渐难以支撑，亟需引入内存内计算（PIM）技术予以补强。

四、系统架构设计的前瞻性考量

为应对AI推理工作负载持续增长所带来的能效、带宽与计算复杂性挑战，SK hynix围绕AiM芯片本体设计、SoC系统整合与软件支持生态提出了面向未来的三维优化路径。该设计原则旨在确保AiM与AiMX平台具备跨代兼容性、灵活扩展性与生态可持续性。

4.1 AiM架构的功能拓展与精度多样性

AiM未来架构的发展重点包括计算功能的丰富化与数值精度的异构化支持。具体方向如下：

计算功能支持：
- 除GEMV外，进一步扩展至GEMM、GQA（Grouped Query Attention）等形式；
- 提高对批处理（Batch）操作的适配性；
- 拓展至多类型模型负载，探索在图神经网络等新架构中的应用可能。
封装创新：
- 探索**Hybrid Bonding（混合键合）**等先进封装技术，以提升芯片堆叠密度与带宽传输效率。
数据精度支持：
- 支持多种精度格式，如INT4、INT8、BF16、FP16、FP32、MX等；
- 引入Heterogeneous Precision（异构精度处理）机制，实现动态权重缩放（Scale Factor）与计算灵活性，以提升整体系统效率。

4.2 SoC整合：功耗-性能协同与仲裁机制优化

在系统集成层面，如何在功耗受限约束下实现高效算力调度，是AiM架构在SoC级部署的核心课题。

功耗热设计优化：
- 引入动态功率调节机制，包括MAC之间的电源门控与热控制策略；
- 精细化管理MAC单元与Bank之间的访问路径，提升数据本地化访问效率。
数据仲裁机制：
- 采用粗粒度的Normal与PIM访问交错调度，降低Bank切换开销；
- 优化写入请求的排队与释放机制（Write Request Draining），提高整体吞吐率；
- 行切换（Row Switch）优化策略，兼顾读取延迟与功耗控制。

该设计目标是实现在功耗受限SoC场景下，达到类似数据中心级别的内存计算效率，为终端设备提供定制化高性能加速路径。

4.3 软件生态：PIM感知的内存管理机制

软件层面的优化对于PIM架构的落地与扩展至关重要。SK hynix提出了以下软件协同策略：

大页内存配置：
- 通过配置Large Page Size，实现权重数据在AiM架构下的Bank感知式布局，提高访问并行度。
内存调度与换页策略：
- 引入PIM-Aware Memory Swap Policy，区分PIM区域与常规内存区域的调度方式；
- 在磁盘与DRAM之间实现PIM任务与数据的高效迁移，提升数据驻留效率。

上述机制确保AiM架构不仅具备硬件上的性能优势，也在系统调度与运行时环境中实现最大化利用，为用户提供可控、可复用、可移植的计算平台基础。

五、结语：AI内存革命的起点与未来布局

在AI算力演进的大背景下，SK hynix通过AiM与AiMX架构的持续迭代，构建了从芯片到系统、从服务器到终端的全栈式内存计算解决方案。该路径不仅代表了存算协同范式的实际落地，更预示着未来AI推理性能优化的主阵地正逐步向内存侧转移。

5.1 多元产品路径：从数据中心到边缘设备的全面部署

SK hynix已经形成了完整的PIM产品演进序列：

2020年：推出基于GDDR6的首款AiM芯片，标志着内存计算从理论走向产品化；
2022–2023年：AiMX卡原型发布，支持与主流GPU平台协同部署；
2024年以后：
- 发布LPDDR-AiM，面向终端侧On-device AI应用；
- 提出Extended AiMX系统，匹配更大模型、更高能效比需求；
- 推动高容量、系统级解决方案的产业化部署。

该演进路线以芯片设计–系统集成–应用协同为主线，横跨服务器与终端场景，打通了存储与计算的结构性瓶颈。

5.2 SDK与生态开放：推动产业协同与标准共建

为了推动AiM技术的规模化落地，SK hynix已发布完整的AiM软件开发工具包（SDK），并通过全球开发者大会（如2024年9月San Jose、10月San Jose、11月Atlanta）展示实际DEMO与联合验证成果。

SDK支持：

各类模型转换与编译工具；
PIM任务调度API与性能评估模块；
与主流AI框架的接口适配支持。

同时，SK hynix正积极开展与系统厂商、云服务提供商、芯片设计企业的合作，推动PIM生态从芯片创新走向行业共建。

5.3 技术跃迁的起点：“Beyond Memory”的战略构想

SK hynix提出的“Beyond Memory”愿景明确指出，未来PIM不再仅仅是内存的增强功能，而是AI算力体系的重要组成部分。基于此，SK hynix正在探索以下技术方向：

Hybrid Bonding：用于构建更紧密的数据路径与算力单元协同；
CXL-PIM架构：提升内存互联灵活性，实现异构系统间的带宽共享；
异构精度计算：通过AI模型特性驱动计算资源分配动态优化；
系统级能效建模与调度：实现跨层级PIM任务感知与功耗控制。

随着模型规模与任务复杂度的持续提升，传统处理器架构将逐步失去边际效率，PIM将成为弥合性能瓶颈与能效鸿沟的关键路径。

总结而言，AiM与AiMX不仅是内存产品的演进，更代表了一种AI时代系统架构的重构思维。从存算分离到存算融合，SK hynix正引领一场深层次的算力范式变革。

突破“内存墙”——海力士引领AI算力时代的内存创新路径

引言

一、AI时代的内存困境与转机

1.1 LLM架构特性揭示的“内存墙”本质

1.2 高能耗与算力扩展性的可持续性问题

二、AiM与AiMX：海力士的内存计算架构革命

2.1 Accelerator-in-Memory (AiM)：实现真正意义上的全Bank并行

2.2 AiMX原型卡：打通GPU协同的内存计算通道

2.3 Extended AiMX：面向大规模LLM部署的系统扩展路径

三、数据中心与终端侧的应用演进趋势

3.1 数据中心：从小批量到大批量的推理架构演变

3.2 多头注意力（MHA）在AiM中的并行优化机制

3.3 On-device AI：推理本地化趋势与带宽挑战

4.1 AiM架构的功能拓展与精度多样性

4.2 SoC整合：功耗-性能协同与仲裁机制优化

4.3 软件生态：PIM感知的内存管理机制

5.1 多元产品路径：从数据中心到边缘设备的全面部署

5.2 SDK与生态开放：推动产业协同与标准共建

5.3 技术跃迁的起点：“Beyond Memory”的战略构想

相关文章

“星链”+“超强GPU”：英伟达“王炸”GPU深夜入场，正在编织的“天罗地网”

OpenAI官宣自研芯片，AI界M1时刻九个月杀到！联手博通三年10GW

刚刚，Figure 03人形机器人登场，能感知一枚回形针重量

近期文章

AI领域大地震：马斯克Grok-4.1登顶双料冠军，王座易主

后RAG时代已至，SAG为何能成为ZLEAP重新定义AI搜索的答案？

AI教父LeCun公布Meta生涯“最后一作”，定义下一代AI架构

“世界模型”不再遥不可及！李飞飞团队重磅开放，Pro版有哪些升级？