Tesseractの日本語精度を上げる
アクティブ読書用データの作り方の文字データ取得をTesseractで実施する場合のメモ
from 2022/05/22
meganii.iconTesseractの日本語精度を上げるためには?(v5.1)
以下の対応で、だいぶ改善した
GitHub - tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models.の学習済言語データ(BEST)版を使う
BEST版を利用する場合、1文字ずつ搬出されるため、preserve_interword_spaces Tのオプションを有効にする
無効だとあ い う え おみたいになる?基素.icon
そうなった気がしますmeganii.icon
--psmを適切な値に設定する
tessdoc/ImproveQuality.md at main · tesseract-ocr/tessdoc · GitHub
縦書きではなく横書きの場合、--psm 6が自分の感覚としても良さそう
https://qiita.com/henjiganai/items/7a5e871f652b32b41a18#3-ページセグメンテーションモードpsmについて
tesseract のオプション PSM をいじってみた | Binary Star
縦書きの場合、-l jpn_vertと、縦書き用の日本語を指定した上で、--psm 5を指定するのが良さそう
日本語の場合edges_max_children_per_outlineを40程度に設定する
from: https://github.com/tesseract-ocr/tessdoc/blob/main/tess3/ControlParams.md#useful-parameters-for-japanese-and-chinese
Tesseract(OCR)は行単位で処理した方が性能が良い? - 社会人研究者が色々頑張るブログ
ブロック単位ではなく、行単位で処理すべき
このTIPSは貴重takker.icon
#アクティブ読書