環境によってByteLevelBPETokenizerの訓練結果が違う!?
https://github.com/ftnext/practice-dl-nlp/issues/24
原因はPath(".").glob("**/*.txt")
https://docs.python.org/ja/3/library/pathlib.html#pathlib.Path.glob
入力するファイルはkant.txtしかないので、["kant.txt"]だけを渡せばよい
Colabはvenvを使っていない
Colabでない環境ではvenvを作った
venvの中のtxtファイルがglobで見つかっていた!
#sacremoses に同梱されるtxtファイル
同様の事象がIssueに挙がっていた
https://github.com/PacktPublishing/Transformers-for-Natural-Language-Processing/issues/3#issuecomment-858668701
This act cause an error by running instruction, paths = [str(x) for x in Path(".").glob("**/*.txt")], to import too many txt files of non UTF-8 format.