最小二乗法とは何ですか？

最小二乗法は残差（実測値と予測値の差）の二乗和を最小化することで回帰直線を求める方法です。傾きb=Σ(x-x̄)(y-ȳ)/Σ(x-x̄)²、切片a=ȳ-b×x̄で計算できます。

決定係数R²とは何ですか？

R²（R二乗）は回帰モデルがデータの変動をどれだけ説明できているかを0〜1の値で示します。R²=1は完全な当てはまり、R²=0は全く説明できていないことを意味します。R²=SSR/SST=1-SSE/SSTで計算します。

外れ値は回帰直線にどう影響しますか？

外れ値（アウトライアー）は最小二乗法では二乗するため、大きな残差は特に影響力が大きく、回帰直線を大きく引き寄せます。このツールで端の方に外れ点を追加して確認してみてください。外れ値への耐性を上げるにはロバスト回帰が使われます。

相関係数rとR²の違いは？

相関係数r（ピアソン）はx-y間の線形関係の強さと方向を−1〜+1で表します。R²はrの二乗（単回帰の場合）で、説明力（0〜1）を表します。r=0.9ならR²=0.81で「81%の変動を説明」と解釈します。

› 線形回帰シミュレーター戻る

統計・データサイエンス

線形回帰・最小二乗法シミュレーター

グラフをクリックしてデータ点を追加するだけで線形回帰を即時計算。決定係数R²・残差・95%信頼区間をリアルタイム可視化して最小二乗法の仕組みを体感できます。

データセット

残差線を表示 95%信頼区間を表示平均線を表示

y = — x + —

計算結果

決定係数 R²

—

（0〜1）

相関係数 r

—

（-1〜+1）

傾き b

—

切片 a

—

データ点数

点

RMSE

—

グラフをクリックしてデータ点を追加できます

理論・主要公式

\(b = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}\)
\(a = \bar{y} - b\bar{x}\)
\(R^2 = 1 - \frac{SS_E}{SS_T} = \frac{SS_R}{SS_T}\)

💬 解説ダイアログ

🙋

線形回帰って「点に一番近い直線を引く」という感じですか？でも「一番近い」って何で測るんですか？

🎓

「縦方向の距離（残差）の二乗の合計を最小にする直線」が最小二乗法だ。なぜ二乗か、というと符号が相殺しないようにするためと、外れ値の影響を強くするためだ。このツールで「残差線を表示」をオンにすると、各点から直線への縦の距離が見えます。

🙋

R²が0.8だと「まあまあ当てはまってる」感じですか？

🎓

そう。「データの変動の80%をモデルが説明できてる」という意味だ。ただし分野によって基準が大きく異なる。物理実験ならR²=0.99でないと不満、経済データなら0.5でも有意という場合もある。一概に「高ければ良い」とは言えない。

🙋

「外れ値ありデータ」を読み込むと直線が大きくずれますね。どう対処するんですか？

🎓

まず外れ値がなぜ発生したかを調べることが先決だ。測定ミスなら除外、本物の現象なら除外できない。統計的対処法としては「ロバスト回帰」（絶対値を最小化するL1回帰等）がある。機械学習ではHuber損失関数が有名だ。

よくある質問

Q. 相関と因果の違いは何ですか？

A. 相関（Correlation）は2変数が一緒に変動することを示しますが、因果（Causation）は原因と結果の関係です。「アイスが売れる日は溺死事故が多い」は相関ですが、アイスが溺死の原因ではなく（夏という共通の原因がある）。回帰分析は相関を定量化しますが、因果を証明しません。

Q. 重回帰と単回帰の違いは？

A. このツールは説明変数が1つの単回帰（y=ax+b）です。重回帰は複数の説明変数を使います（y=a₁x₁+a₂x₂+…+b）。CAEでは「材料特性・荷重・温度から応力を予測」のような多変数回帰がよく使われます。

Q. 信頼区間と予測区間の違いは？

A. 信頼区間は回帰直線（平均値）の不確かさの範囲、予測区間は新しい1点の予測値の範囲です。予測区間の方が必ず広くなります。このツールで示しているのは95%信頼区間（回帰直線の不確かさ）です。

Q. 機械学習とどう違いますか？

A. 線形回帰は機械学習の基礎であり、最も単純な教師あり学習モデルです。機械学習では線形回帰に正則化（LASSO・Ridge）を加えたモデルや、非線形モデル（決定木・ニューラルネット）も使います。統計的解釈（p値・信頼区間）を重視するのが古典的回帰、予測精度を重視するのが機械学習的アプローチです。

線形回帰・最小二乗法シミュレーターとは

線形回帰の物理モデルでは、観測データ点 \((x_i, y_i)\) に対し、直線 \(y = a x + b\) を仮定します。最小二乗法は、各データ点の縦方向の誤差（残差） \(\varepsilon_i = y_i - (a x_i + b)\) の二乗和 \(S = \sum_{i=1}^{n} \varepsilon_i^2\) を最小にするパラメータ \(a, b\) を求めます。この最適化は、偏微分 \(\frac{\partial S}{\partial a} = 0\) および \(\frac{\partial S}{\partial b} = 0\) を解くことで達成され、解析的に \(a = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}\)、\(b = \bar{y} - a \bar{x}\) と導出されます。ここで \(\bar{x}, \bar{y}\) は各平均値です。決定係数 \(R^2 = 1 - \frac{\sum \varepsilon_i^2}{\sum (y_i - \bar{y})^2}\) はモデルの当てはまり良さを0から1の値で示し、95%信頼区間は回帰直線の不確かさを視覚化します。本シミュレーターでは、グラフをクリックしてデータ点を追加するだけでこれらの計算が即時実行され、残差の分布や信頼区間の変化をリアルタイムで観察できます。これにより、最小二乗法がデータのばらつきをどう捉え、直線を決定するかを直感的に理解できます。

実世界での応用

産業での実際の使用例
自動車業界のトヨタ自動車では、エンジン部品の耐久試験データ解析に線形回帰を活用。例えば、アルミ合金製シリンダーヘッドの熱疲労寿命予測において、温度と応力振幅の関係を最小二乗法でモデル化し、決定係数R²で適合度を評価。これにより、試作回数を30%削減しながら信頼性を確保しています。半導体業界の東京エレクトロンでは、成膜装置の膜厚均一性を向上させるため、ガス流量と膜厚の線形関係をリアルタイム回帰分析し、プロセス条件を最適化。現場のセンサーデータに本シミュレーターの手法が応用されています。

研究・教育での活用
大学の物理学実験では、ばねの伸びとおもりの質量の関係をデータ点としてプロットし、線形回帰でフックの法則を検証。学生はグラフをクリックする操作で残差や95%信頼区間を視覚的に理解し、最小二乗法の本質を体感できます。また、環境科学の研究では、気温と二酸化炭素濃度の経年変化を分析し、R²値からモデルの妥当性を議論する教材として利用。初学者でも直感的に統計的推論を学べる点が評価されています。

CAE解析との連携や実務での位置付け
CAEシミュレーションの結果検証において、本ツールは実験データと解析値の相関を評価する軽量な検証ツールとして機能。例えば、構造解析ソフト「ANSYS」で得られた応力分布と実測値の線形回帰を行い、R²が0.95以上ならモデルが妥当と判断。実務では、複雑なFEM解析の前に本シミュレーターで傾向を把握し、実験計画法（DOE）のスクリーニング段階で使用。CAEの計算負荷を低減しつつ、エンジニアが直感的にデータ駆動型の意思決定を行うための橋渡し役を担います。

よくある誤解と注意点

「データ点が多ければ多いほど決定係数R²は必ず高くなる」と思いがちですが、実際は外れ値や非線形な関係を含むデータを無理に直線で回帰するとR²が低下する場合があります。R²はモデルの当てはまりの良さを示しますが、データの質や分布に大きく依存するため、単純にサンプル数だけを増やしても改善しないことに注意が必要です。

「95%信頼区間の範囲内にすべてのデータ点が収まるべきだ」と誤解されがちですが、実際は信頼区間は回帰直線の平均的な位置の不確かさを示すものであり、個々のデータ点のばらつきを表す予測区間とは異なります。そのため、多くのデータ点が信頼区間の外にあっても統計的に問題はなく、この違いを混同しないように注意が必要です。

「最小二乗法はどんなデータにも適用できる万能な手法」と思いがちですが、実際は外れ値に非常に敏感で、1つの極端なデータ点が回帰直線を大きく歪めることがあります。また、データが直線関係でない場合や誤差が正規分布していない場合には、別の回帰手法やデータの前処理を検討する必要がある点に注意が必要です。