カーネルリッジ回帰の数式の導出方法を徹底解説

更新日:2024年04月02日(作成日: 2024年03月15日)

カテゴリー:

数学

機械学習

カーネルリッジ回帰の数式を導出・解説します。流れが詳しくわかるよう、丁寧に式変形するよう心がけております。

1 概要
2 数式

概要

ただの線形回帰ではデータが線形分布しているときにしか適用できませんが、高次元空間へ写像して、その空間で線形回帰をすると、元の空間では非線形回帰となります。これから説明するカーネルリッジ回帰も非線形回帰の１つです。

カーネルリッジ回帰を理解するには、リッジ回帰の理解が最低でも必要です。次のページで説明しているため、適宜参考にしてください。

TeKRog

https://tekrog.com/ridge-regression-formula-explained

リッジ回帰の数式の導出方法を徹底解説

リッジ回帰の数式を導出・解説します。流れが詳しくわかるよう、丁寧に式変形するよう心がけております。まずは通常の回帰の数式の導出から始め、リッジ回帰の数式の理...

数式

リッジ回帰を非線形に対応させる

データをN次元ベクトル $\mathbf{x}$ で表す。

元のデータ $\mathbf{x}$ が存在する空間を $\Omega$ とし、 $\Omega$ から高次元特徴空間 $H$ への写像を $\boldsymbol{\phi}:\Omega \to H$ とする。
つまり、元のデータ $\mathbf{x}\in\Omega$ が関数 $\boldsymbol{\phi}$ によって、 $\boldsymbol{\phi}(\mathbf{x})\in{H}$ に移されるとする。
ここで、 $\boldsymbol{\phi}(\mathbf{x})$ 自体もベクトルであることに注意する。

$N$ 個のデータ $\lbrace\mathbf{x}_i\rbrace_{i=1}^N$ が特徴空間 $H$ へ写像されたデータ点 $\lbrace\boldsymbol{\phi}(\mathbf{x}_i)\rbrace_{i=1}^N$ を、次の行列でまとめて表示する。

\boldsymbol{\Phi}=\begin{bmatrix} \boldsymbol{\phi}(\mathbf{x}_1)^\top \\ \vdots \\ \boldsymbol{\phi}(\mathbf{x}_N)^\top \end{bmatrix}

ここで、元の空間 $\Omega$ での正則化項付きの2乗誤差は、次のとおりであった。詳しくは、リッジ回帰のページを閲覧されたし。

\sum_{i=1}^N(y_i-\mathbf{a}^\top\mathbf{x}_i)^2+\lambda\|\mathbf{a}\|_2^2\cdots①

TeKRog

https://tekrog.com/ridge-regression-formula-explained

リッジ回帰の数式の導出方法を徹底解説

そして、これを最小化するaは、次のとおりであった。

\mathbf{a}=(\mathbf{X}^\top\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{y}\cdots②

特徴空間H上では、 $\mathbf{x}_i$ が $\boldsymbol{\phi}(\mathbf{x}_i)$ に、 $\mathbf{X}$ が $\boldsymbol{\Phi}$ となるだけなので、①及び②の特徴空間での式は、次の③及び④で表せる。

\sum_{i=1}^N(y_i-\mathbf{a}^\top\boldsymbol{\phi}(\mathbf{x}_i))^2+\lambda\|\mathbf{a}\|_2^2\cdots③

\mathbf{a}=(\boldsymbol{\Phi}^\top\boldsymbol{\Phi}+\lambda\mathbf{I})^{-1}\boldsymbol{\Phi}^\top\mathbf{y}\cdots④

カーネルに置き換える

式③の内積 $\mathbf{a}^\top\boldsymbol{\phi}(\mathbf{x}_i)$ において、 $\{\boldsymbol{\phi}(\mathbf{x}_i)\}_{i=1}^N$ の張る空間を $H_0$ としたとき、 $H=H_0\oplus{H}_0^\bot$ と分解して、 $\mathbf{a}=\mathbf{a}_0\oplus\mathbf{a}_\bot(\mathbf{a}_0\in{H}_0, \mathbf{a}_\bot\in{H}_0^\bot)$ とする。

よって $\mathbf{a}_\bot\bot\tilde{\boldsymbol{\phi}}(\mathbf{x}_i)$ となり、③式の内積計算において、 $\mathbf{a}$ の $\mathbf{a}_\bot$ 成分と、それに対応する $\boldsymbol{\phi}(\mathbf{x}_i)$ の成分の項の積は直行するので内積0となり、③式の評価と関係がなくなる。したがって $\mathbf{a}$ は $H_0$ の元として表せれば十分である。
よって $\boldsymbol{\phi}(\mathbf{x}_i)$ の線型結合で表せれば良いので、