対OCRテキストの検索術
画像のOCR結果を「検索して見つからない」とき、どういうOCR結果になっていることが多いだろうか? 1. OCR結果の文字が誤りなく変換されている
検索できるので問題なし
2. OCR結果に濁点、半濁点の認識間違いがある
パンケーキ(Pa)が誤って読み込まれる
バンケーキ(Ba)
ハンケーキ(Ha)
(ハ|バ|パ)ンケーキ
こういう検索ができれば見つかりそう
あいまい検索っぽい動きをしてくれるとヒットする?
もしくは、事前にユーザー(検索者)が「認識間違いがあるだろう…」と読んでンケーキで検索すれば見つかりそう
3. OCR結果の文字自体の認識間違いがある
形が似ている全然違う文字に認識されてしまう
具体的に見つからなかった場合がぱっと思いつかない
(読み取れなくてスキップした結果の)文字抜けなど
4. n段組になっている文章のOCR結果
新聞/雑誌のようにページのレイアウトとして二段組になっている文章
code:before
12345 abcde
67890 fghij
OCR結果はこうなるか
code:after1
12345 abcde
67890 fghij
こういうパターンも見たことあるかも
code:after2
12345
abcde
67890
fghij
1234567890とabcdefghijで認識してくれると検索しやすい
認識できていない場合、どう検索するか?
5. そもそもの表記が曖昧(OCR結果とは関係が薄い)
DNS浸透問題のような検索ワードがあった気がする
DNSの浸透問題
DNS浸透の問題
DNS 浸透 問題なら引っかかる?
DNS 浸透だと多くヒットしすぎる可能性がある
ここから絞り込むのが難しい
6. どうOCRされるかわからない
1. Gif画像やmp4のOCR