HPC趋势与CAE — 下一代硬件如何改变仿真

分类：行业动态 | 2026-01-15

HPC architecture trends for CAE including ARM processors and chiplet design

HPC的世界正处于ARM、芯粒、CXL内存三大技术潮流之中。这些趋势如何影响CAE的计算性能和运营，本文结合百亿亿级时代的实际案例逐一讲解。

HPC与CAE的关系

🧑🎓

老师，最新HPC趋势对CAE有什么影响？我听说富岳和Frontier，但这对实际CAE工程师有关系吗？

🎓

关系很大。CAE有"大量消耗内存"、"矩阵运算多"、"大规模并行处理"三个特征，这些都直接与HPC硬件性能相关。HPC硬件的进化直接决定CAE的计算速度和规模。

例如，汽车制造商的全车碰撞分析已达到亿级要素，要在一天内完成需要超级计算机级别的资源。从富岳或Frontier等百亿亿级计算机获得的知识，几年后通过云HPC会传导到一般企业的CAE环境。

🧑🎓

明白了，超级计算机的技术最终会影响普通CAE环境。具体有哪些重要趋势？

🎓

直接影响CAE的三大趋势是，ARM（富岳、AWS Graviton）、芯粒（AMD EPYC、Intel Ponte Vecchio）、CXL内存扩展。我们逐一分析。

趋势1：ARM架构的兴起

🧑🎓

ARM是智能手机处理器吧？能用来做CAE计算吗？

🎓

HPC用ARM处理器与智能手机的ARM Cortex完全不同。虽然指令集是ARM，但设计思想差异巨大。举几个例子。

富岳的A64FX（富士通）：48核 + 32GB的HBM2。FP64 SIMD运算宽度512位（SVE指令），与x86的AVX-512相当。特别是带状矩阵运算（FEM的疏矩阵向量积）性能与x86相当或更优
AWS Graviton3/4：云端可用的通用ARM处理器。相比Intel/AMD成本效率高20～40%。具有OpenFOAM和CalculiX运行实绩
NVIDIA Grace：基于Arm Neoverse V2。Grace Hopper组合中与GPU的集成很有吸引力

🧑🎓

富岳A64FX在FEM带状矩阵运算中性能与x86相当或更优，很厉害呢。为什么ARM会更有利呢？

🎓

最大原因是直接在CPU上搭载HBM。FEM疏矩阵向量积（SpMV）是内存受限的处理，运算速度由内存带宽决定而非计算能力。A64FX搭载HBM2提供1024 GB/s带宽，相比标准DDR4/DDR5内存（约50～100 GB/s）的x86有绝对优势。

用Roofline模型表述，SpMV的运算强度约0.25 FLOP/Byte，在这个区域内存带宽直接决定性能。

趋势2：芯粒与先进封装

🧑🎓

什么是芯粒？最近经常听到这个词。

🎓

传统处理器是一块巨大的单片硅芯片，而芯粒技术是将多个小芯片组合成一个处理器。

AMD EPYC（Genoa/Turin）：最多128核通过芯粒结构实现。是CAE集群的实际标准
Intel Ponte Vecchio：GPU+CPU+HBM集成在一个封装中。数据中心级GPU

对CAE的影响是需要注意芯粒间通信延迟（NUMA边界）。MPI过程放置不当会导致同一节点内内存访问迂回，性能大幅下降。例如AMD EPYC的8芯粒配置中，MPI rank若未正确绑定到NUMA域，会出现30～50%的性能下降。

🎓

没错。这就是NUMA（非均匀内存访问）机制。实务中用 numactl --interleave=all 或MPI的 --bind-to numa 选项明确绑定。不知道这点直接提交任务的话，就会出现"买了昂贵CPU却没有快"的情况。

趋势3：CXL内存扩展

🧑🎓

CXL是什么？第一次听说。

🎓

CXL（Compute Express Link）是一种新的互连规范，可通过PCIe插槽扩展CPU的内存空间。对CAE的意义很大，可以做到以下几点。

大幅扩展内存容量：通常一个节点512GB～1TB的DRAM，可通过CXL扩展到数TB。大规模隐式法直接求解器不再需要"因内存不足增加节点数"
内存池化：多个节点间共享内存。未使用节点的内存可动态分配给其他作业
分层内存：频繁访问的数据自动置于HBM/DDR5，其余数据置于CXL内存

2025年目前仍处于初期阶段，但2～3年后会成为CAE用HPC集群的标准配置。特别对于被内存瓶颈困扰的Abaqus或Nastran隐式法求解用户来说是好消息。

搭载HBM的GPU与内存受限问题

🧑🎓

一直在说内存带宽，CAE真的那么受内存带宽的限制吗？

🎓

CAE的主要处理——疏矩阵向量积、要素内力计算、单元间通量计算——几乎全部受内存限制。因此搭载HBM的GPU或CPU在CAE中优势明显。

具体的带宽对比如下。

硬件	内存带宽	备注
AMD EPYC 9654（DDR5）	约460 GB/s	8通道，96核
富岳 A64FX（HBM2）	1,024 GB/s	48核，CPU直连HBM
NVIDIA A100（HBM2e）	2,039 GB/s	FP64: 9.7 TFLOPS
NVIDIA H100（HBM3）	3,350 GB/s	FP64: 30 TFLOPS

HBM带宽是DDR5的5～7倍。对于内存受限的CAE计算，这种带宽差异直接转化为性能差异。

🧑🎓

原来如此，应该看内存带宽而不是CPU运算速度。只看规格书的TFLOPS不行啊。

🎓

完全同意。看CAE基准测试时，应重视"每GB/s的实际性能"而非TFLOPS。这就是Roofline模型的思想，在内存受限领域，峰值FLOPS无关，内存带宽决定性能上限。

量子计算展望

🧑🎓

量子计算机能用来做CAE吗？听说什么都能加速。

🎓

坦白说，CAE应用量子计算还在研究阶段，实际可用要等到10年以后。

期待的应用是量子线性求解器（HHL等）快速求解大规模线性方程组，但现阶段量子比特数和误差率都远远不足。要求解数百万自由度的 $\mathbf{K}\mathbf{u} = \mathbf{f}$ 需要数百万以上的逻辑量子比特，而目前量子计算机仅有约1000个量子比特。

不过，量子退火通过优化问题（拓扑优化等）有望在相对近的将来实用化。D-Wave等量子退火器进行材料配置优化的研究已在进展。

🧑🎓

原来量子计算不是"万能魔法"，只对特定问题有效。那近期实务中应该重点关注什么？

🎓

完全同意。实务CAE工程师现在应重点关注的是ARM适配的求解器编译验证、NUMA绑定的正确设置、以及云HPC中GPU实例的活用。量子计算可作为长期监测对象，暂时不需过度关注。

CAE技术日新月异。— Project NovaSolver致力于将最新研究成果与实务相连接。

与实务者共同思考CAE未来

Project NovaSolver是一个面向HPC趋势与CAE实务课题本质，致力于支撑工程现场工具创造的研发项目。

查看项目最新信息 →