教師あり学習と教師なし学習
教師あり学習
学習データとして入力とその正しい出力が与えられ、ある入力を受けると正しい出力ができるよう学習させるアルゴリズム。
教師あり学習の代表的タスクは「識別」と「回帰」です。
「識別」とは、既存のデータをもとに、そのデータが正解データと比べあらかじめ設定したいくつかのクラスに分類するもの
「回帰」とは、連続する値を予測する際に使用します。「識別」では、データがどの分類(クラス)に帰属するかを学習しますが、回帰では、具体的な数値の予測を行います。
たとえば、売り上げや株価、降水量の予測などを行う処理がここに該当します。
つまり「教師あり学習」とは入力データを正解データとして参照して認識し、その学習データをもとに回帰を行うことを言う。
この正解データを作成する作業を「アノテーション」という。
教師なし学習
「正解」データを与えず行うアルゴリズム
教師なし学習では、大量のデータを与え、アルゴリズム自身がそのデータを探索することで、データの構造やパターンなどを抽出したり、データを分類します。
代表的なタスクにクラスタリングというものがあります。
クラスタリングとは、似た特徴を有するものを、同じグループに分けるものです。たとえば、年齢や性別、消費傾向などの特製から、顧客をいくつかのグループに分類するような処理があたります。
参考文献および引用元(12/6)
【保存版】機械学習とは | 意味や仕組み・勉強方法を徹底解説