OCRゴミ掃除 - 西尾泰和の外部脳

OCRゴミ掃除

特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある

これが言語モデル作成の元データに混ざるとよくない

出現する文字にあからさまな偏りがあるので簡単に取れると思う