eba9620f987e,023
http://nhiro.org.s3.amazonaws.com/6/0/6073afc79266c4d60fe80da2867b690c.jpg https://gyazo.com/6073afc79266c4d60fe80da2867b690c
(OCR text)
Googleのモデル
Googleが大量のマシンパワーをつぎ込んで学習した
学習ずみBERTがあるじゃないか?
試してみたがトークナイザが、漢字を一文字ずつ分割する上に、
濁音はアクセント記号とみなして削除する
「/100/言/語/も/混/せて/有/益/な/##のか/?/」/って/割/
と/疑/問/な/##のて/##この/##モ/##テル/##て/僕/の/本/や/
青/野/さん/##の/本/の/穴/埋/め/##を/解/か/##せ/##て/正/
解/率/を/見/たり/##と/##っ/##ち/##の/本/由/来/の/文/章/
か/##を/当/てた/##り/##する/##と/良/さ/##そ/##う/。'