线性回归模拟器 返回
统计·数据科学

线性回归·最小二乘法模拟器

只需点击图表添加数据点,即可立即进行线性回归计算。实时可视化决定系数R²·残差·95%置信区间,让您亲身体验最小二乘法的工作原理。

参数

暂停时,拖动滑块即可即时更新结果。

计算结果
斜率 b
截距 a
决定系数 R²
残差平方和 SSR
相关系数 r
0
数据点数 n
y = — x + —
数据点与回归直线
理论·主要公式
\(b = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}\)
\(a = \bar{y} - b\bar{x}\)
\(R^2 = 1 - \frac{SS_E}{SS_T} = \frac{SS_R}{SS_T}\)

💬 解释对话

🙋
线性回归就是「画一条最接近各点的直线」吧?但「最接近」是怎么衡量的呢?
🎓
「使竖直方向距离(残差)的平方和最小的直线」就是最小二乘法。为什么要平方呢?是为了防止正负号相互抵消,同时让异常值的影响变大。在这个工具中,如果打开「显示残差线」,就能看到每个点到直线的竖直距离。
🙋
R²为0.8时,是「拟合得还不错」的意思吗?
🎓
正是。「模型解释了数据变动的80%」的意思。但是,不同领域的标准差别很大。物理实验中R²=0.99才能接受,而经济数据中R²=0.5有时已经很有意义。不能简单地说「越高越好」。
🙋
加载「有异常值的数据」后,直线会大幅偏移。有什么办法吗?
🎓
首先要调查异常值为什么产生。如果是测量错误就排除,如果是真实现象就不能排除。统计方法上,有「稳健回归」(L1回归等绝对值最小化)。机器学习中有Huber损失函数。

常见问题

问:相关性和因果性有什么区别?
答:相关性(Correlation)表示两个变量一起变化,因果性(Causation)是原因和结果的关系。「卖出的冰淇淋多的日子溺水事故也多」是相关性,但冰淇淋不是溺水的原因(夏天是共同原因)。回归分析能量化相关性,但证明不了因果性。
问:多元回归和单回归的区别?
答:本工具是说明变量只有1个的单回归(y=ax+b)。多元回归有多个说明变量(y=a₁x₁+a₂x₂+…+b)。在CAE中常用「从材料特性·荷载·温度预测应力」这样的多变量回归。
问:置信区间和预测区间的区别?
答:置信区间是回归直线(平均值)的不确定性范围,预测区间是新单点预测值的范围。预测区间总是更宽。本工具显示的是95%置信区间(回归直线的不确定性)。
问:与机器学习有什么不同?
答:线性回归是机器学习的基础,也是最简单的有监督学习模型。机器学习可以在线性回归上加正则化(LASSO·Ridge),或使用非线性模型(决策树·神经网络)。统计学强调假设检验(p值·置信区间),机器学习强调预测精度。

线性回归·最小二乘法模拟器详解

在线性回归的物理模型中,对于观测数据点 \((x_i, y_i)\),我们假设存在直线关系 \(y = a x + b\)。最小二乘法通过最小化每个数据点的竖直方向误差(残差) \(\varepsilon_i = y_i - (a x_i + b)\) 的平方和 \(S = \sum_{i=1}^{n} \varepsilon_i^2\) 来求解参数 \(a, b\)。这个优化过程通过求解偏微分方程 \(\frac{\partial S}{\partial a} = 0\) 和 \(\frac{\partial S}{\partial b} = 0\) 实现,解析解为 \(a = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}\)、\(b = \bar{y} - a \bar{x}\),其中 \(\bar{x}, \bar{y}\) 分别是各自的平均值。决定系数 \(R^2 = 1 - \frac{\sum \varepsilon_i^2}{\sum (y_i - \bar{y})^2}\) 用0到1之间的值表示模型的拟合优度,95%置信区间可视化回归直线的不确定性。本模拟器通过点击图表添加数据点,即时执行这些计算,让您能够实时观察残差分布和置信区间如何随数据变化,从而直观理解最小二乘法如何捕捉数据的波动并确定直线。

实际应用

工业实际应用案例
汽车制造业的丰田汽车利用线性回归分析发动机部件耐久试验数据。例如,在铝合金缸盖的热疲劳寿命预测中,使用最小二乘法对温度与应力振幅的关系建模,通过决定系数R²评估拟合度。这样做使得试作次数减少了30%,同时保持了可靠性。半导体设备制造商东京电子则利用线性回归实时分析成膜设备的膜厚均一性,对气体流量与膜厚的线性关系进行回归分析,进而优化工艺参数。该工具中的方法已应用于现场传感器数据分析。

研究和教育应用
大学物理实验中,学生通过绘制弹簧伸长量与吊重质量的关系,使用线性回归验证胡克定律。通过点击图表操作来添加数据点,学生能直观看到残差和95%置信区间,对最小二乘法原理有深刻理解。环境科学研究利用此方法分析气温与二氧化碳浓度的长期变化趋势,通过R²值评估模型合理性,成为初学者学习统计推论的有效教学工具。

CAE分析中的应用和实务定位
在CAE仿真结果验证中,本工具用作评估实验数据与仿真值相关性的轻量级验证工具。例如,结构分析软件「ANSYS」得到的应力分布与实测值的线性回归,若R²≥0.95则说明模型合理。实际应用中,在进行复杂FEM分析前,可用本模拟器快速了解数据趋势,在实验设计(DOE)的筛选阶段使用,既能降低CAE计算负荷,又能帮助工程师直观做出数据驱动的决策。

常见误解与注意事项

许多人认为「数据点越多,决定系数R²就越高」,但实际上,如果数据中含有异常值或非线性关系,强行用直线回归会导致R²降低。R²反映的是模型拟合度,但它在很大程度上依赖于数据质量和分布,仅增加样本量无法改善拟合效果。

常见误解是「95%置信区间内应该包含所有数据点」,实际上置信区间表示回归直线平均位置的不确定性,与表示单个数据点波动范围的预测区间不同。许多数据点落在置信区间外在统计上是正常的,混淆这两个概念会导致误解。

很多人误认为「最小二乘法是万能的,适用于任何数据」,但它对异常值非常敏感,一个极端数据点可能会大幅扭曲回归直线。当数据不呈直线关系或误差不符合正态分布时,需要考虑其他回归方法或数据预处理,这点需特别注意。

使用指南

  1. 输入样本数据或从CSV读取,在散点图中绘制
  2. 勾选「显示残差线」,观察最小二乘法的优化过程
  3. 勾选「显示95%置信区间」,叠加绘制和模拟预测精度
  4. 勾选「显示平均线」,观察回归直线与平均值线的偏差,定量分析
  5. 实时计算决定系数R²和标准误差SE,评估统计精度

具体计算示例

钢材拉伸试验数据验证:应力σ(MPa)与应变ε(%)的关系。输入数据点(0,0)、(100,0.5)、(200,1.0)、(300,1.5)、(400,2.0)。用最小二乘法得到回归直线y=0.005x+0.0。决定系数R²=0.9998,残差平方和SSE=0.0005。95%置信区间宽度±0.15%。与理论杨氏模量E=200GPa比较,可验证精度。

实际应用注意事项