機械学習
https://gyazo.com/2da16863123d6698520e8a3e0599dc16
機械学習とは
機械学習とは、コンピュータが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムモデルやモデルを自動的に構築する技術である。現在のAIの中核義10つであり、ディープラーニングも機械学習の一部である。
https://s3-ap-northeast-1.amazonaws.com/ledge-assets/media/wp-content/uploads/2019/09/29111843/スクリーンショット-2020-01-29-10.24.19.jpeg
機械学習・ニューラルネットワーク・ディープラーニングの違い
機械学習、ニューラルネットワーク、ディープラーニングは別々の概念ではない。機械学習の1つとしてニューラルネットワークが存在し、さらに、ニューラルネットワークのアルゴリズムの1つとしてディープラーニングが存在している。
ニューラルネットワークとは
ニューラルネットワークとは、脳の神経回路の一部を模した、数理モデル、なた、パーセプトロンを複数組み合わせたものの総称である。
機械学習を機能させるためにの一手法であり、現在では、ニューラルネットワークを構築すつアルゴリズムとしてディープラーニングに使用されている。
ディー王ラーニングとは
ディープラーニングとは、ニューラルネットワークを多層に結合して表現・学習能力を高めた機械学習の一手法である。現在、AIを構成するアルゴリズムとして最もよく用いられている手法でもある。
機械学習は主に、「教師なし学習」「教師あり学習」「強化学習」の3種類の枠組みに分けて考えることができる。
教師あり学習
学習データとして入力とその正しい出力が与えられ、ある入力を受け取ると正しい出力ができるように学習させるアルゴリズムである。教師あり学習の代表的なタスクは「識別」と「回帰」である。
「識別とは、既存のデータを元に、そのデータを正解データと比べ予め設定して幾つかのクラスに分類するものである。例えば、迷惑メールを振り分ける処理が該当していいる。
回帰は連続する値を予測する際に使用する。「識別」では。どのデータがどのクラスに分類されるかを学習するが、回帰では具体的な数値の予測をする。例えば売り上げや株価。降水量の予測を行う処理がここに該当している。
教師あり学習とは、入力データを正解データに参照して識別を行い、その学習データを元に回帰をおこぬことを言う。この正解データを作成する作業を「アノテーション」といい、教師あり学習において重要な役割を果たしている。
教師なし学習
教師あい学習が、「正解」の用意された。データを元に学習するのに対し、「正解」データを与えず行うアルゴリズムが「教師なし学習」である。
教師なし学習では、大量のデータを与え、あるごりすむ自身がそのデータを探索することで、データの構造やパターンを抽出したり、データの分類を行ったりする。
代表的なものにクラスタリングが存在する。
クラスタリングとは、似た特徴をゆうす物を、同じグループに分ける物である。例えば、年齢や性別、消費稽古などの特徴から、顧客をいくつかのグループに分類するような処理がこれに当たる。
強化学習
「強化学習」は、教師なし学習と同じく「正解」データは与えられないが、データの出力を価値付し、その価値を最大化するための行動をとるようにアルゴリズムを最適化する。望ましい出力結果に対し報酬を与え、コンピュータに良い出力を学習させる。
例えば、株式の売買で、最も利益を出すためにはどのタイミングで売るべきか。ゲームで最も高いスコアを出すためにはどうするかなどの判断処理が強化学習に該当する。現在ではAlphaGo(碁の人工知能ソフト)に代表されるように多くのゲームに利用されている。
機械学習の仕組み
機械学習を最大限に動かすために、さまざまなアルゴリズムが現在まで開発されたきた。今回はその中でも主要な方法である、「ニアレストネイバー法」「決定木・ランダムフォレスト」「サポートベクターマシン」「ニューラルネットワーク」について解説する。
ニアレストネイバー法(最近傍法)
ニアレストネイバー法とは、求めた異様さから最も近い既存データが属する集団に分類する、機械学習のアルゴリズムの一つである。
https://s3-ap-northeast-1.amazonaws.com/ledge-assets/media/wp-content/uploads/2019/09/29112458/121.jpg
例えば、上図の赤い四角を○か×に分類する。赤い四角から、各要素までの距離を全て計算すると、最も近い要素は○である。故に、この赤い四角は○であると判断する手法である。
しかし、全ての要素までの距離を計算しなければならず、データ量が大きくなるにつれ、膨大な数の計算が必要となる。そのため、計算機の性能によりデータ量が制限されてしまう欠点が存在する。
決定木・ランダムフォレスト
決定木とは、データから”木”構造の予測モデルを作る、機械学習のアルゴリズムの一つである。
https://s3-ap-northeast-1.amazonaws.com/ledge-assets/media/wp-content/uploads/2019/09/29112045/1.jpg
上図において、赤いしかくを縦線の境界線で○か×に分類する際、どこが一番正答率が高くなるかを繰り返し設定を行う。しかし、縦線だけでは、×が一つ間違えているため、次に横線で分類する。このような切り分けを繰り返して、分類する方法が決定木である。
しかし、決定木は未知のデータに対して適合できない。汎化できないか学習を引き起こし。容易に判別を間違える可能性がある。
この問題を解決するために、決定木のアルゴリズムにランダム性を持たせる「ランダムフォレスト」がある。
データの一部をランダムに間引き。一部だけで、決定木を複数作る、もしくは、線の引き方にランダム性を持たせ決定木を複数作る。その後を、この複数作成した決定木で多数決をとり、判別をする方法である。現在では、センサーデータなどで広く用いられている。
サポートベクターマシン
サポートベクターマシンとは、2つのグループ間の最も離れた箇所(最大マシーン)を見つけ出し、その真ん中に識別の線を引き分別させる、機械学習のアルゴリズムの手法の1つである。
https://s3-ap-northeast-1.amazonaws.com/ledge-assets/media/wp-content/uploads/2019/09/29112126/3.jpg
上の図においては、○と×の間の境界線を、両者から最も近くなるように設定し、赤い四角と×を判別する。
ニューラルネットワーク
https://s3-ap-northeast-1.amazonaws.com/ledge-assets/media/wp-content/uploads/2020/01/23154346/perceptron.png
現在、機械学習で最も用いられている手法が、ニューラルネットワークである。ニューラルネットワークは複数の「パーセプトロン」から構成されている。
まず入力層にデータを入力し。そのデータを認識するための指標である特徴量を入力する。その入力に対し、神経参謀間に接続強度に相当する重みw1.w2...を掛けたものを、出力層のニィーロンに入力する。
出力層のニューロンは、この入力を足し合わせたものを活性化関数に通し、最終的な結果を出力する。この入力から出力までの一連の流れが「パーセプトロン」である。
ニューラルネットワークは、入力層と出力層の他に隠れ層を持足せることにより、より複雑な分析を可能にしている。