回归模型选择

预设数据集

统计指标

回归方程

请添加至少2个数据点

计算结果

—

R²（决定系数）

—

RMSE（均方根误差）

数据点数

—

当前模型

散点图 — 点击添加/删除数据点

点击：添加数据点 | 点击已有点附近：删除 | 红色竖线 = 残差

理论与主要公式

最小化残差平方和：
S = sum(yi - yi_hat)^2
R2 = 1 - SS_res / SS_tot

什么是回归分析与曲线拟合

🙋

“回归分析”是什么？听起来好复杂。

🎓

简单来说，就是给一堆散乱的数据点找一条最合适的“趋势线”。比如你有一组材料拉伸试验的数据，应力（y）和应变（x）看起来像是一条直线，回归分析就能帮你算出这条最准的直线方程。你试着在模拟器图表上点几个点，马上就能看到拟合出的线了。

🙋

诶，真的吗？那旁边显示的R²=0.99是什么意思？数字越大越好吗？

🎓

对，R²可以理解为这条线对数据点的“解释能力”，1就是完美贴合。在实际工程中，比如用仿真数据去校准实验数据，我们通常要求R²≥0.99才敢说模型是准的。你可以试着把一两个数据点拖得远离趋势线，看看R²是怎么掉下来的，直观感受一下。

🙋

那下面有“线性”、“二次”、“指数”好几种模型可以选，我该用哪个？是不是曲线弯得越复杂（阶数越高）就越好？

🎓

这是个常见的误区！工程现场常见的是“过拟合”：用高阶多项式把每个点，包括噪声误差，都死死穿过，R²接近1，但对新数据的预测一塌糊涂。你可以在模拟器里选“五次多项式”去拟合几个大致呈直线的点，会发现曲线扭来扭去。大多数物理现象，比如弹簧刚度（线性）、自由衰减振动（指数），用2-3阶模型就足够了。

物理模型与关键公式

所有回归模型的核心都是最小二乘法，它的目标是找到一组模型参数，使得所有数据点的预测值与实际值之差的平方和最小。

$$S = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2$$

其中，$y_i$ 是第 $i$ 个数据点的实际观测值，$\hat{y}_i$ 是模型给出的预测值，$n$ 是数据点总数。$S$ 越小，说明拟合效果越好。

为了量化拟合的好坏，我们引入决定系数 $R^2$。它衡量了模型能够解释因变量 $y$ 变异的比例。

$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}= 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$$

$SS_{res}$ 是残差平方和（即上式中的 $S$），$SS_{tot}$ 是数据的总变异平方和，$\bar{y}$ 是 $y$ 的平均值。$R^2$ 越接近1，模型解释能力越强。

现实世界中的应用

CAE仿真验证与标定：在汽车碰撞仿真中，需要将仿真计算的加速度曲线与实车试验数据对比。通过回归分析拟合两条曲线，并计算高R²值，来验证仿真模型的准确性，这是模型可信度的关键证据。

材料本构模型参数识别：通过材料试验机获得应力-应变数据点。利用非线性回归（如幂律、指数模型）对这些数据点进行曲线拟合，从而反推出材料模型（如塑性硬化模型）中的关键参数，用于后续的有限元分析。

实验数据经验公式提炼：在流体力学实验中，测量得到一系列雷诺数(Re)与阻力系数(Cd)的离散数据。通过回归分析寻找两者之间的函数关系（如多项式或幂律关系），形成可用于快速工程估算的经验公式。

传感器数据校准与趋势预测：对结构健康监测系统采集的长期数据（如桥梁应变、振动频率）进行回归分析，可以拟合出其随时间或负载变化的趋势线，用于评估性能退化、预测剩余寿命，并识别异常数据点。

常见误解与注意事项

首先，“R²高就一定是好模型”这种观念是危险的。例如，对材料蠕变数据使用五次多项式拟合时R²可能超过0.99，但该曲线完全无法预测未来行为，且缺乏物理意义。在实际工程中，“预测性能”与“可解释性”的平衡至关重要。其次，容易忽略异常值的影响。若实验数据中存在一个明显偏离的点，最小二乘法会强烈受其牵引，从而产生扭曲整体趋势的回归方程。您可以在NovaSolver中尝试：在一列直线分布的数据点末端添加一个明显偏离的点，即可观察到直线产生大幅偏移。最后，应尽量避免数据范围外的预测（外推）。即使R²很高，用20℃至80℃实验数据建立的公式预测150℃的行为仍具有极高风险，材料可能发生相变等预期之外的现象。

回归分析与曲线拟合工具

什么是回归分析与曲线拟合

物理模型与关键公式

现实世界中的应用

常见误解与注意事项

相关工具