数字孪生与机器学习
理论与物理
概述
最近经常听到数字孪生,能讲讲它和CAE的关系吗?
数字孪生是一种技术,它构建真实世界物理系统的虚拟副本作为仿真模型,并通过与传感器数据同步来实时监控和预测其状态。通过将CAE物理模型与机器学习相结合,可以实现快速预测和自适应更新。
和普通的CAE仿真有什么不同呢?
决定性的区别在于它是“活的”。普通的CAE在设计阶段执行一次就结束了,而数字孪生则在运行期间持续吸收传感器数据并不断更新自身。这使得它能够针对老化、意外载荷、环境变化等情况做出相应的预测。
支配方程
用数学公式怎么表示呢?
通常被表述为状态空间模型。系统状态 $\mathbf{x}_k$ 遵循时间演化方程,观测值 $\mathbf{y}_k$ 是其部分测量值。
其中 $f$ 是物理模型(如FEM),$\mathbf{u}_k$ 是输入(如载荷),$\mathbf{w}_k$ 是模型误差,$h$ 是观测算子,$\mathbf{v}_k$ 是观测噪声。ML被用作 $f$ 的快速近似(代理模型),或者用于学习模型误差 $\mathbf{w}_k$。
引入ML有什么好处呢?
如果直接使用FEM的 $f$,则无法满足实时更新的速度要求。通过ML近似 $f$,可以实现秒级的预测。此外,还能从数据中学习物理模型无法充分表达的劣化机制或环境依赖性。
物理信息驱动方法
物理模型和ML是如何结合的呢?
主要有三种模式。
1. 混合型: 用ML修正物理模型的输出。$\hat{y} = f_{\text{physics}}(x) + f_{\text{ML}}(x, \text{residual})$
2. 代理型: 用ML完全替代物理模型。速度快但外推性有挑战
3. 物理约束嵌入型: 使用像PINN那样将物理定律嵌入损失函数的ML模型
实际上,混合型的可靠性最高。其构成是用物理模型捕捉宏观行为,用ML修正残差。
数字孪生的定义争论——“孪生”到底“活”到什么程度
您知道“数字孪生”这个词,实际上定义因人而异吗?NASA式的定义是“实时反映实机状态的高保真度仿真”,但在制造业的实际应用中,很多情况止步于“将传感器数据关联到3D CAD模型的仪表盘”。从理论上讲,要构建真正的数字孪生,物理模型、数据同化、ML代理模型、不确定性量化这四者缺一不可。GE的燃气轮机数字孪生是其中较为先进的,它将每台发动机的数千个传感器信号与300多个FEM子模型进行实时同化。不过据说仅维护费每年就高达数亿日元,由此可见“真正的DT”是多么庞大。
各项的物理意义
- 守恒量的时间变化项:表示目标物理量随时间的变化率。在稳态问题中为零。【比喻】给浴缸放热水时,水位随时间上升——这个“单位时间内的变化速度”就是时间变化项。关闭阀门后水位保持恒定的状态就是“稳态”,此时时间变化项为零。
- 通量项(流束项):描述物理量的空间输运和扩散。主要分为对流和扩散两种。【比喻】对流就像“河流运送小船”一样,物体随流动被运走。扩散则像“墨水在静止水中自然扩散”一样,物体因浓度差而移动。这两种输运机制的竞争支配着许多物理现象。
- 源项(生成/消失项):表示物理量局部生成或消失的外力/反应项。【比喻】在房间里打开暖气,该处就“生成”了热能。化学反应中燃料被消耗,质量就“消失”了。这是表示从外部注入系统的物理量的项。
假设条件与适用极限
- 连续介质假设在空间尺度上成立
- 材料/流体的本构关系(应力-应变关系、牛顿流体定律等)在适用范围内
- 边界条件在物理上合理且在数学上正确定义
量纲分析与单位制
| 变量 | SI单位 | 注意事项·换算备忘 |
|---|---|---|
| 特征长度 $L$ | m | 需与CAD模型的单位制保持一致 |
| 特征时间 $t$ | s | 瞬态分析的时间步长需考虑CFL条件和物理时间常数 |
数值解法与实现
实现架构
数字孪生系统是如何构成的呢?
ROM是怎么制作的呢?
POD(本征正交分解)是标准方法。通过大量计算全FEM的解来构建快照矩阵,并用SVD提取主要基向量。即使是原本有100万个自由度的模型,通常也能用10~50个基向量捕捉90%以上的能量。这使得计算速度提高数万倍。
ML模型的学习与更新
ML模型的学习数据是怎么制作的呢?
通常采用两阶段学习。
离线学习: 在设计阶段大量执行参数化FEM分析,创建参数-响应数据集,并预先训练ML模型。使用拉丁超立方抽样高效覆盖参数空间。
在线学习: 开始运行后,利用实际的传感器数据逐步更新模型。通过迁移学习或微调来适应少量的真实数据。
在线学习是实时进行的吗?
不一定是实时的。多数情况下,按日或按周批量更新模型。需要实时性的是数据同化(状态估计)部分,而模型本身的参数更新周期可以稍长一些。
边缘部署的注意事项
如果想在本地边缘设备而不是云端运行,该怎么办?
关键在于模型轻量化。可以采用以下方法:导出为ONNX格式并用ONNX Runtime进行推理;通过量化(INT8)减轻计算负担;使用TensorRT等优化GPU推理。如果推理所需的计算量控制在100 MFLOPS左右,即使在NVIDIA Jetson这样的边缘设备上也能实现毫秒级的响应。
代理模型让数字孪生“更快”——FNO vs POD-ROM
支撑数字孪生实时性的是代理模型(替代模型)。每一步都运行全FEM在计算上不可行,因此需要用轻量化的近似模型来加速。经典方法是基于POD的ROM,但在非线性强的问题中精度不佳。进入2020年代,Fourier Neural Operator备受关注。MIT与Caltech联合研究的FNO是一种学习“函数到函数映射”的架构,作为纳维-斯托克斯方程的代理模型,已有实现比传统方法快1000倍的案例。Ansys SimAI也采用了类似思想,并公开了将耗时数小时的CFD分析在数秒内近似的演示。
低阶单元
计算成本低且实现简单,但精度有限。在粗网格下可能产生较大误差。
高阶单元
在同一网格上实现更高精度。计算成本增加,但通常所需单元数会减少。
牛顿-拉夫逊法
非线性问题的标准方法。在收敛半径内具有二阶收敛性。以 $||R|| < \epsilon$ 作为收敛判据。
时间积分
离散化的比喻
数值解法类似于“用数码相机拍照”。将现实中连续的景象(连续体)用有限个像素(单元/网格)来表现。增加像素数(网格密度)会提高画质(精度),但文件大小(计算成本)也会增加。找到最佳平衡点是实际工作中的关键。
实践指南
项目启动步骤
数字孪生项目应该从哪里开始呢?
一开始就追求大规模往往会失败。分阶段推进是铁律。
阶段1: 价值验证 — 使用单一组件、少量传感器、简易模型来验证“预测是否与实际测量相符”。周期为3~6个月
阶段2: 试点运行 — 在实际运行环境中积累数据,逐步改进模型。构建在线学习机制。周期为6~12个月
阶段3: 全面推广 — 扩展到多组件、多物理场耦合。建立运维体制
价值验证阶段有哪些常见的失败模式?
最常见的是“数据不足”模式。传感器安装位置不当、采样频率过低、或者数据质量本身就很差。在价值验证之前,制定周密的传感器计划非常重要。
最佳实践
请告诉我成功的秘诀。
- 首先确保物理模型的精度。即使要用ML修正,如果基础的物理模型本身就很粗糙,整个系统就会崩溃
- 定期进行传感器校准。存在将传感器漂移误认为模型劣化的风险
- 建立定量监控模型预测性能的机制。当RMSE等指标恶化时发出警报
- 彻底进行数据版本管理。用于学习的数据、模型的版本、推理结果的可追溯性对于应对审计是必要的
应用案例
具体有哪些案例呢?
| 行业 | 对象 | 效果 |
|---|---|---|
| 航空 | 喷气发动机涡轮叶片 | 通过剩余寿命预测优化维护计划 |
| 风力发电 | 风力涡轮机传动系统 | 通过故障征兆检测避免突发停机 |
| 桥梁 | 钢桥疲劳损伤 | 通过应变传感器与FEM同化定位损伤部位 |
| 汽车 | 电池包 | 温度分布预测与劣化监控 |
| 工厂 | 压力容器 | 蠕变寿命的在线更新 |
波音787数字孪生——追踪复合材料机体的“衰老”
数字孪生已正式应用于飞机机体的维护管理。波音在787上部署的系统,将每次飞行记录的数万通道FDR数据与结构FEM仿真相结合,根据每架飞机特有的使用履历来追踪复合材料蒙皮的疲劳损伤。这使得从传统的“全机统一的检查计划”过渡到“根据该飞机实际使用情况的个别计划”成为可能。实施上的最大挑战是“由谁来更新模型”的体制建设。机体设计部门、MRO部门、IT系统部门各自为政,仿真器版本管理与数据管道的一致性维护,在组织层面上的难度甚至超过了技术层面。
该分析领域的比喻
CAE分析实务是“虚拟实验室”——无需物理样机即可预测产品行为。但正如“输入垃圾,输出垃圾”这句格言所说,输入数据的质量决定了结果的可信度。
分析流程的比喻
分析流程类似于“科学实验”。提出假设(分析模型),进行实验(计算执行),验证结果,修正假设——这个PDCA循环能产生高质量的分析。
初学者容易陷入的陷阱
最常见的失败是“忽视结果验证”。即使得到了漂亮的云图,也未必在物理上是正确的。务必与理论解、实验数据或基准问题进行对比。
边界条件的思考方式
边界条件是“实验的夹具”
なった
詳しく
報告