OCRゴミ掃除
特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
これが言語モデル作成の元データに混ざるとよくない
出現する文字にあからさまな偏りがあるので簡単に取れると思う