eba9620f987e,023

http://nhiro.org.s3.amazonaws.com/6/0/6073afc79266c4d60fe80da2867b690c.jpg https://gyazo.com/6073afc79266c4d60fe80da2867b690c

(OCR text)

Googleのモデル

Googleが大量のマシンパワーをつぎ込んで学習した

学習ずみBERTがあるじゃないか?

試してみたがトークナイザが、漢字を一文字ずつ分割する上に、

濁音はアクセント記号とみなして削除する

「/100/言/語/も/混/せて/有/益/な/##のか/?/」/って/割/

と/疑/問/な/##のて/##この/##モ/##テル/##て/僕/の/本/や/

青/野/さん/##の/本/の/穴/埋/め/##を/解/か/##せ/##て/正/

解/率/を/見/たり/##と/##っ/##ち/##の/本/由/来/の/文/章/

か/##を/当/てた/##り/##する/##と/良/さ/##そ/##う/。'