BERT
https://en.wikipedia.org/wiki/BERT_(language_model)
Bidirectional Encoder Representations from Transformers (BERT) is a technique for NLP (Natural Language Processing) pre-training developed by Google.
BERT was created and published in 2018 by Jacob Devlin and his colleagues from Google.
Google is leveraging BERT to better understand user searches.
https://github.com/google-research/bert
https://arxiv.org/abs/1810.04805
https://arxiv.org/pdf/1810.04805.pdf
qiitaでBERTで検索しても結構見つかる
https://qiita.com/neonsk/items/27424d6122e00fe632b0
READMEの翻訳
https://qiita.com/uedake722/items/927bf491a025f1a88b17
自然言語処理の「BERT」とは何か
/nishio/BERTとTransformer
https://www.dropbox.com/s/g9mwglyugxwtvpo/BERTとTransformer.pdf?dl=0
Transformerをたくさん積み重ねただけ
/nishio/BERT
Transformerの実装はオリジナルのtensor2tensorライブラリを使っていて、しかも何もいじってない
ただし
TransformerのEncoder部分だけ使ってるのでそもそも構造が違うのに注意
これについて明確に述べている文章がmiyamonz.iconが調べた時点ではあまりなく、注意が必要だと思った
研究してる人らにとっては当たり前でわざわざ述べてない、ということな気がする
https://seiichiinoue.github.io/post/nlp/
TransformerのEncoderブロックから成る
ネットワーク側でなく学習データ側にマスクをかけている
ファインチューニングでいろんなタスクに使えるように
複数センテンス入力
1つのセンテンス入力
class label出力
start/end Span
とかがあるっぽい
ファインチューニングに関して
固定するパラメータはないはず
https://gyazo.com/4ac9f39ae7f2f50f158efe3ad9a46477