機械学習
__________________________________
結果が爆発しにくい(nに対するオーダーが低い)
「サポートが下がるもの」=飽和頻出アイテム集合
なんか加えたらnに対するオーダーが低いモノ→closedである
closedにすると2個に減ってmaximizeすると7個に増える
関係のないと思われる要素であったとしても、0,1のデジタル表現で表せるものを並列させることで、相関ルール(今まで想像だにしなかった関係性)を発見できる可能性がある。
数値をそのまま使うのではなく、2種類の値にすることで扱えるようになる
__________________________________
用意されたグループへの当てはめ
つまり、クラスタリングがグループ分けであり、統計的な用語としての誤用に注意 クラスタリング
相関ルール発見
主成分分析
つまり、特徴量の抽出
clasificationは教師有り学習に該当する
今回はそのうち、簡単な分離アルゴリズムについて学習
回帰
データポイントの集合を直線で近似
目的変数の出力は常に「数値」である
分類
クラスラベル(予め用意されたいくつかの分類名)を予測
つまり、数値じゃない、って感じ
分類は選択式であり、回帰は数値計算である
新たな特徴ベクトルと訓練用の各特徴ベクトルの距離を計算する
k>1の場合、距離に応じて重みを付けて計算し、予測結果のクラスラベルを求めたりする。
train test splitを実行しなおすと、「訓練データの抽出」と「テスト用データの抽出」が再度行われるため、test結果の値が異なる。
___________________________________
前回の復習
ランダムにデータセットを振り分けると、テスト用の抽出データ群が「1/3の項目しかないデータ群」しか集まらない可能性がある
原因と結果をひっくり返すような発想法
サポートベクターマシーンについて
2次元平面状で線形分離できないようなデータセットを3次元に変換する(x1,x2,x3)(ただしx3は1,2から導出可)
非線形の分類問題も解決できるようになる
主成分分析について
高次元データを低次元データとかに凝縮できる
※改良された主成分分析も複数存在している
t-SNE
UMAP
これらの「次元数変換」のメリット
めちゃくちゃ分類しやすくなる可能性がある
MNIST Deigits
PCAは教師無し学習
iris