機械学習アルゴリズム簡易まとめ
最近傍法
小さいデータに関しては良いベースラインとなる。説明が容易。
線形モデル
最初に試してみるべきアルゴリズム。非常に大きいデータセットに適する。非常に高次元のデータに適する。
ナイーブベイズ
クラス分類にしか使えない。線形モデルよりもさらに高速。非常に大きいデータセット、高次元のデータに適する。線形モデルより性能が劣ることが多い
決定木
非常に高速。データのスケールを考慮する必要がない。可視化が可能で説明しやすい。
ランダムフォレスト
ほとんどの場合単一の決定木よりも高速で、頑健で、強力。データのスケールを考慮する必要がない。高次元の疎なデータには適さない。
勾配ブースティング決定木
多くの場合ランダムフォレストよりも少し精度が高い。ランダムフォレストよりも訓練に時間がかかるが、予測はこちらのほうが速く、メモリ使用量も小さい。ランダムフォレストよりもパラメータに敏感。
サポートベクターマシン
同じような意味を持つ特徴量からなる中規模なデータセットに対しては強力。データのスケールを調整する必要がある。パラメータに敏感。
ニューラルネットワーク
非常に複雑なモデルを構築できる。特に大きなデータセットに有効。データのスケールを訓練する必要がある。パラメータに敏感。大きいモデルは訓練に時間がかかる。