BERT
Bidirectional Encoder Representations from Transformers
画像認識における,ImageNetで事前学習したVGGやResNetのような立ち位置? より人間に近い形で、重層的な言語認知(注意)をしているのではないか その中には構文解析的な認知状態や、まだ人間が定義できていない新しい認知状態も含まれるかも 今後は脳(ネットワーク)にどんな教育(事前学習タスク)を施すかの方法論に重きが移っていくのではないか汎用言語表現モデルBERTを日本語で動かす(PyTorch).icon 構造について
https://gyazo.com/d7237f6f19d458bc428bcce2ac48cca3汎用言語表現モデルBERTを日本語で動かす(PyTorch).icon
Transformerのencoder部分
複数のmulti-head attentionを全結合的に接続 事前学習
次の単語を予測するタスクだと,bi-directionalの場合カンニングになってしまう 次の単語の予測ではなく,ランダムにマスクされた単語を周辺情報から予測する 文章(のトークン)列を一部[MASK]というトークンに置き換えて流し込んで、そのMASKが何だったのかを復元するというタスク
このタスクの特徴として、人間の手でアノテーションされた教師データが要らない
とにかく大量のテキストさえ持っておけば事前学習ができて便利
2つの文を与え,それらが隣り合っているかをYes/Noで判定する
上の事前学習で済ませた重みを、別のタスクて追い学習する
ただし、モデルの後ろには個別のタスクのためのレイヤーをちょい足しする
pooler layerとか名前がついてたりする(出典が分からんが、ソースコードにはそう書いてある
このBERT1つで、当時の複数のNLPタスクをSOTAを叩き出してすごくて、注目が集まった。
以降、BERTに関する研究が広がった
日本語だとこの記事とか
このスライドがよくまとまってる