太い基準線が真の関数、細い曲線群がデータセットごとの当てはめ(広がり=バリアンス)、太い線が平均予測(真の関数との差=バイアス)。散布点は強調中の1データセットです。
$$\mathbb{E}\big[(y-\hat f)^2\big]=\underbrace{(\,\overline{\hat f}-f\,)^2}_{\text{バイアス}^2}+\underbrace{\mathbb{E}\big[(\hat f-\overline{\hat f})^2\big]}_{\text{バリアンス}}+\underbrace{\sigma^2}_{\text{ノイズ}}$$
テスト点での期待二乗誤差は、バイアス²・バリアンス・既約誤差(ノイズ分散 σ²)の3つに分解できる。$\hat f$ は学習したモデル、$\overline{\hat f}$ はデータセットを変えたときの平均予測、$f$ は真の関数。
$$\text{Bias}^2=\frac{1}{N}\sum_x\big(\overline{\hat f}(x)-f(x)\big)^2,\qquad \text{Var}=\frac{1}{N}\sum_x\mathbb{E}_D\big[(\hat f_D(x)-\overline{\hat f}(x))^2\big]$$
テストグリッド上で平均したバイアス²とバリアンス。$\hat f_D$ はデータセット $D$ で学習したモデル。
モデルの複雑さを上げるとバイアスは下がりバリアンスは上がる。両者のトレードオフにより、期待総誤差は複雑さに対してU字型を描き、その最小点が最良の汎化性能を与える。