高校数学から理解できるSVMの数学【サポートベクターマシーン】

更新日:2024年03月14日(作成日: 2021年12月31日)

カテゴリー:

数学

機械学習

サポートベクターマシン(SVM)の数式の意味を「高校レベル教養」があれば理解できるよう分かりやすく解説しています。マージンの概念から始め、マージンを最大化する目的関数と双対問題、決定関数を導出するまでの式変形を細部に至るまで全て記載しています。更にハードマージンSVMから初め、ソフトマージンSVMまで解説し、スラック変数の解説もしています。

1 はじめに
- 1.1 注意事項
- 1.2 前提となる知識
2 ハードマージンSVM
3 ソフトマージンSVM
4 超曲面での分離〜カーネル法へ〜
5 まとめ

はじめに

注意事項

この記事は、SVMの数学を高校数学レベルに落とし込むのではなく、SVMに必要なレベルの数学を説明する形式になっています。なので専門書レベルの本格的な知識が身につき、他の機械学習の手法の理解にも繋がります。

前提となる知識

SVMの数学的理解には以下の基礎知識が必要です。

多変数関数の偏微分や勾配
多次元ベクトル
不等式のラグランジュの未定乗数法と二次計画問題

これらの概念を高校数学の知識だけで短時間で学べる記事を4つ用意しています。

①N次元ベクトルについて

TeKRog

https://tekrog.com/basic-vector-for-ml/

【速習】高校数学で理解できる機械学習のベクトル

機械学習の理解にあたって最も重要なの概念はベクトルです。しかし高校で習うベクトルは基礎の基礎で、機械学習を学べるレベルのものではありません。そこで、この記事...

②N変数関数と偏微分について

TeKRog

https://tekrog.com/basic-differential-for-ml/

【速習】高校数学で理解できる機械学習の微分と多変数関数

微分は高校生でも習いますが、機械学習で出てくる微分の理解には大学数学の知識が必要です。しかし0から大学数学の微積分を学ぼうとするのは遠回りかもしれません。この...

③超曲面や法線ベクトルについて

TeKRog

https://tekrog.com/normal-vector-of-hypersurface-and-contour/

超曲面や等高線の法線ベクトルを直感的に理解する

この記事ではN次元空間における「超曲面と等高線(等値面)の法線ベクトル」の公式について、図と例を用いて直感的に分かりやすく説明しています。大学の初等数学が分かれ...

④ラグランジュの未定乗数法

TeKRog

https://tekrog.com/method-of-lagrange-multiplier/

多変数のラグランジュの未定乗数法と2次計画問題

ラグランジュの未定乗数法は「ある条件下で関数の極値を求める」方法です。2変数で等式制約のケースの解き方は大学の初等数学で習いますが、3次元以上の「多変数」の場...

本記事で分からないことがあったら、これらの記事から学べます。

ハードマージンSVM

SVMの概念とマージン

M個のm次元ベクトルがクラス1、2のいずれかに属するとして、クラス1のラベルを、クラス2のラベルをとします。また、これらのベクトルは線形分離可能(超平面で分割できる)とします。

このm個のデータを②つのクラスに分ける超平面の識別境界を求めるのが目的です。

と最も近い点からまでの距離を「マージン」と呼び、このマージンを最大にするを求める問題を定式化したものをハードマージンSVMと言います。

Dと最も近い点のことを「サポートベクトル」といい、図では黒フチで囲ってある点で表されています。

不等式制約の導出まで

それでは、さっそくを求める方法を解説していきます。

線形分離可能なので、一方のクラスのデータxはDの上、もう一方のクラスのデータxはDの下にあるので次を満たします。

wを使った式に置き換えると、

さらに上下をまとめて次のように書けます。

次にマージンの大きさを求めます。
Dは陰関数表示の超平面とします。よって超平面自体はと記述できます。

この超平面から最も近い点をとすると、点と超曲面の距離dは、公式より

となります。

ここで、wとbを定数倍しても距離dの大きさが変わらないことに着目します。
なので分子は

を満たします。よって、d=1となるようにwとbを適当に定数倍することができます。
すなわち、

とおけます。わざわざ1と置くのは、後の計算を楽にするためです。

最も近い点でなので、すべての点は次の式を満たします。

これと①から、

目的関数の導出

②と③から、マージンdは

になります。

以上で役者が揃いました。
超平面Dを求める問題は、④の不等式の制約下で⑤のマージンを最大化する問題へと帰着します。

この問題を解きやすいQPに持ち込みます。を最大化するということは、この分母を最小化することになります。

更にこの問題はを最小にする問題と同じです。

なぜ、との最小化問題は同じなのか、このあたりの直感的なイメージを2次元の場合で見てましょう。

どちらの場合もdを最小にするwは原点w=0となって同じになります。
それどころか、微分可能になって極小値が簡単に求められるようになっています。

これで超平面を求めるための目的関数が得られました。

主問題から双対問題の導出

以上のことから、QPは次のようになります。

SVMのQP(主問題)

このQPを解きましょう。まずはラグランジアンを定義します。

次にwとbについて偏微分＝0をとなる点を求めます。

⑦にはbが現れないので、これは今後λとyに関する制約となります。

ここで、総和記号の計算について1つだけ注意事項を載せておきます。
添字がiの総和記号の中で同じく添字がiの総和記号を代入する必要があるとき、片方の添字をjなどの違う文字に変更する必要があります。そうでないと、両者の演算対象が区別できず混ざってしまい、式の意味も変わってしまいます。

これを踏まえて、⑥をラグランジアンLに代入します。

よって、双対問題は

SVMのQP(双対問題)

これを満たす最適なλを求めることが、ハードマージンSVMの学習になります。この問題を解く有名なアルゴリズムにはSMOなどがありますが、今回は割愛します。
最適なλが求まったとして、話を進めます。

決定関数の導出

最適なλとw(⑥)が求まったので、これらを当初の目的であるに代入します。これがSVMの識別境界となります。

SVMの識別境界

ここでSVはサポートベクトルの集合を表しています。

この式に置いて、SVとbはKKT条件から求まります。
主問題のKKT条件は

なので、を満たすiから

として求まります。ここで、に対応するがサポートベクトルとなります。

以上で超平面Dが算出できました。

ソフトマージンSVM

スラック変数の導入

一般的にはデータはオーバラップしていて線形分離不可能なことのほうが多いです。そのような問題に対応するため、ハードマージンSVMの制約を緩めたものがソフトマージンSVMです。

マージン最大化の考えは同じですが、いくつかのデータがマージン内に侵入していたり、あるいは識別境界を飛び越えて違うクラスに分類されてしまうことを許容します。このときの誤差をξ(非負)で定義します。

この誤差ξをスラック変数といいます。スラック変数はデータごとに定義されます。スラック変数を用いて、ハードマージンSVMにおける不等式制約 (④)を次のように修正します。

データ点はであればハードマージンSVMのようにマージン境界上もしくは外側に存在し、であればマージンの内側、1より大きくなると識別境界を飛び越え誤分類されます。

目的関数の導出

この修正に伴って目的関数も考え直す必要があります。
といっても簡単で /2の最小化と同時に誤差の最小化も考えます。
つまり、次の目的関数を最小化します。

Cやpは「誤差をどの程度厳しく最小化するか」を調整するハイパーパラメータであり、SVMのモデルを使うときに人間が試行錯誤して決める係数となります。p=1のSVMをL1SVM、p=2のSVMをL2SVMと言います。
以下L1SVMについて考えていきます。

主問題から双対問題の導出

ソフトマージンSVMの2次計画問題は、非負のスラック変数を用いて定義した⑨を⑧の不等式制約下で最小化する問題になります。

ソフトマージンSVMのQP

あとはハードマージンSVMのときと同様にこの問題を解くだけです。
ラグランジュ定数をα,βとして、ラグランジアンは次のようになります。

次に双対問題を導出するためにラグランジアンの微分=0を計算していきます。
wについての偏微分は

bについては

式中にbが出てこないので、ハードマージンSVMのときと同様に双対問題における制約となります。

最後にξについて偏微分しますが、ラクランジアンLの式中でξをベクトルで表記していませんでした(こっちのほうが式が直感通り表せるため)。ですので、あるiについてのみ偏微分して、成分の１つを求めます。

この式にξはでてこないため、これも双対問題における制約となります。

以上の結果をラグランジアンに代入すると、

となり、ハードマージンSVMのときと同じ形になることが分かります。
ここで、⑫で算出された制約からαの取りうる値の範囲を考えます。

まず、アルファはラグランジュの係数なので、
非負なのででαが最大になるときβは0なり、その最大値はよりとなります。

よってαの範囲は

以上より、ソフトマージンSVMの双対問題は次のようになります。

ソフトマージンSVMの双対問題

ハードマージンSVMとの違いは、ラグランジュ乗数に上限Cがあるかないかだけになります。これを矩形制約といいます。

算出すべき超平面DもハードマージンSVMと同様です。

決定関数の導出と矩形制約について

ソフトマージンSVMの識別境界

続いて矩形制約について見ていきます。
矩形制約からについて以下のことが分かります。

① のとき
はマージンより外側に存在します。
だから、KKT条件より、つまり誤差が0となります。

② のとき
だから、KKT条件により。更になのでとなり、KKT条件により。
したがってとなります。これはハードマージンSVMの制約と同じであり、はサポートベクトルとなります。特にこのサポートベクトルとを「上限に達していないサポートベクトル」と言います。

③ のとき
より。
更にだからKKT条件によりとなるので、には誤差が生じます。
特に、のときは識別境界手前の点となり正しく分類されますが、1以上になると識別境界を飛び越え誤分類されてしまいます。

超曲面での分離〜カーネル法へ〜

ソフトマージンSVMで分類できる対象が確かに緩和されましたが、それでも世の中どうしても解けないケースのほうが多いです。次のようなクラス分布を考えて見て下さい。

ソフトマージンSVMでも基本的に超平面(直線)による分類です。
このようなクラス分布を分割するには円形の識別境界が必要になります。

この問題をSVMでも解けるようにするのがカーネル法なのですが、記事が長くなりましたので別の記事でまとめます。カーネル法を利用した識別境界の数式のみ記載します。

カーネル法を利用したSVMの識別境界

まとめ

以上、ハードマージンSVMとソフトマージンSVMの数学を0から識別境界である判別関数の導出まで丁寧に説明しました。ハードマージンSVMもソフトマージンSVMも最終的な式が等しくなることも示しました。式変形を細部まで書いたので読み応えはあると思いますが、その分理解しやすくなっているかと思います。

カテゴリー:

数学

機械学習

TypeScript4.5~4.0の新機能まとめ

多変数のラグランジュの未定乗数法と2次計画問題

高校数学から理解できるSVMの数学【サポートベクターマシーン】

はじめに

注意事項

前提となる知識

ハードマージンSVM

SVMの概念とマージン

不等式制約の導出まで

目的関数の導出

主問題から双対問題の導出

決定関数の導出

ソフトマージンSVM

スラック変数の導入

目的関数の導出

主問題から双対問題の導出

決定関数の導出と矩形制約について

超曲面での分離〜カーネル法へ〜

まとめ

多変数のラグランジュの未定乗数法と2次計画問題

【速習】高校数学で理解できる機械学習の微分と多変数関数

【速習】高校数学で理解できる機械学習のベクトル

ベクトル・行列の微分チートシート

超曲面や等高線の法線ベクトルを直感的に理解する

カーネル主成分分析(カーネルPCA)の数式の導出方法を徹底解説