対OCRテキストの検索術 - kk_AtakaのScrapbox

対OCRテキストの検索術

画像のOCR結果を「検索して見つからない」とき、どういうOCR結果になっていることが多いだろうか？

1. OCR結果の文字が誤りなく変換されている

検索できるので問題なし

2. OCR結果に濁点、半濁点の認識間違いがある

パンケーキ(Pa)が誤って読み込まれる

バンケーキ(Ba)

ハンケーキ(Ha)

(ハ|バ|パ)ンケーキ

こういう検索ができれば見つかりそう

あいまい検索っぽい動きをしてくれるとヒットする？

もしくは、事前にユーザー(検索者)が「認識間違いがあるだろう…」と読んでンケーキで検索すれば見つかりそう

3. OCR結果の文字自体の認識間違いがある

形が似ている全然違う文字に認識されてしまう

具体的に見つからなかった場合がぱっと思いつかない

(読み取れなくてスキップした結果の)文字抜けなど

4. n段組になっている文章のOCR結果

新聞/雑誌のようにページのレイアウトとして二段組になっている文章

code:before

12345 abcde

67890 fghij

OCR結果はこうなるか

code:after1

12345 abcde

67890 fghij

こういうパターンも見たことあるかも

code:after2

12345

abcde

67890

fghij

1234567890とabcdefghijで認識してくれると検索しやすい

認識できていない場合、どう検索するか？

5. そもそもの表記が曖昧(OCR結果とは関係が薄い)

DNS浸透問題のような検索ワードがあった気がする

DNSの浸透問題

DNS浸透の問題

DNS 浸透問題なら引っかかる？

DNS 浸透だと多くヒットしすぎる可能性がある

ここから絞り込むのが難しい

6. どうOCRされるかわからない

1. Gif画像やmp4のOCR

Gyazoにアップロードした画像を探せない#6189f499f458200000774a86