Tesseractの日本語精度を上げる

アクティブ読書用データの作り方の文字データ取得をTesseractで実施する場合のメモ

meganii.iconTesseractの日本語精度を上げるためには？（v5.1）

以下の対応で、だいぶ改善した

BEST版を利用する場合、1文字ずつ搬出されるため、preserve_interword_spaces Tのオプションを有効にする

無効だとあ　い　う　え　おみたいになる？基素.icon

そうなった気がしますmeganii.icon

--psmを適切な値に設定する

縦書きではなく横書きの場合、--psm 6が自分の感覚としても良さそう

縦書きの場合、-l jpn_vertと、縦書き用の日本語を指定した上で、--psm 5を指定するのが良さそう

日本語の場合edges_max_children_per_outlineを40程度に設定する

ブロック単位ではなく、行単位で処理すべき

このTIPSは貴重takker.icon