サポートベクトルマシン
#テーマ4
予測には過去のデータを使うため、外れ値のような余計なデータまで使ってしまうと、予測精度が下がるかもしれない。そこで「本当に予測に必要となる一部のデータ」だけを使う。
本当に予測に必要となる一部のデータのことをサポートベクトルと呼ぶ
サポートベクトルを用いた機械学習法がサポートベクトルマシンである
下のグラフは架空の鳥の種類を分類したもの
縦軸は「羽の大きさ」横軸は「体の大きさ」を現している。
https://gyazo.com/684bf3a8f4d9b9e0a12669457e34df8d
https://gyazo.com/ec3e898f012e4edd3eef73aa27542722
https://gyazo.com/078b76c141b26923632975837618081e
体の大きさだけで分類した場合と体の大きさと翅の大きさの両方で分類した場合を比較する。
https://gyazo.com/ad500a5040c08d4520f4b1a3d333f734
https://gyazo.com/8844ad55e72d174f57f0f1855c67c040
新しいデータが追加された時、体の大きさだけで分類した場合誤判定となってしまうが、体の大きさと翅の大きさの両方で分類した場合は正確な判定が出る
サポートベクトルマシンでは、正しい分類基準を見つけるために、「マージン最大化」という考えを用いる。
マージンとは、「判別する境界とデータとの距離」のことで、
これが大きければ、「ほんの少しデータが変わっただけで誤判定してしまう」というミスをなくすことができる。
なお、境界線と最も近くにあるデータを「サポートベクトル」と呼ぶ。
https://gyazo.com/713b56d16500b388e31f2a488cf9f84e
参考:Logics of Blue/サポートベクトルマシンの考え方/2021.01.06/
https://logics-of-blue.com/svm-concept/