Tesseractの日本語精度を上げる
以下の対応で、だいぶ改善した
BEST版を利用する場合、1文字ずつ搬出されるため、preserve_interword_spaces Tのオプションを有効にする
無効だとあ い う え おみたいになる?基素.icon
そうなった気がしますmeganii.icon
--psmを適切な値に設定する
縦書きではなく横書きの場合、--psm 6が自分の感覚としても良さそう
縦書きの場合、-l jpn_vertと、縦書き用の日本語を指定した上で、--psm 5を指定するのが良さそう
日本語の場合edges_max_children_per_outlineを40程度に設定する
ブロック単位ではなく、行単位で処理すべき
このTIPSは貴重takker.icon