環境によってByteLevelBPETokenizerの訓練結果が違う!?
原因はPath(".").glob("**/*.txt")
入力するファイルはkant.txtしかないので、["kant.txt"]だけを渡せばよい
Colabはvenvを使っていない
Colabでない環境ではvenvを作った
venvの中のtxtファイルがglobで見つかっていた!
同様の事象がIssueに挙がっていた
This act cause an error by running instruction, paths = [str(x) for x in Path(".").glob("**/*.txt")], to import too many txt files of non UTF-8 format.