OCRしたテキストを整形
するscript
OCRをかけたとき、不自然な空白が挟まってしまうことがある。それを取り除くためのscript
やること
全角文字の間に挟まっている空白を取り除く
末尾の空白を消す
半角英数で囲まれている空白は無視する
code:script.js
export function tidy(text, {removeBracket = false} = {}) {
const tidied = text
.split(/\n\r?|\r?\n|\f/g)
.flatMap(line => /^\s*$/.test(line) ? [] : [
line
.replace(/(?<!\w)\s+(?=\W)/g, '')
.replace(/\s+$/, '')
])
.join('\n');
return removeBracket ? tidied.replace(/\[(^\]+)\]/g, ' $1 ') : tidied;
}
code:script.d.ts
export function tidy(text: string, option: {removeBracket: boolean}): string;
行を反転するPopup Menu
雑誌のOCRで、Gyazo OCRが行送りを逆に認識してしまう場合がある
その時に使う
code:js
scrapbox.PopupMenu.addButton({
title: "reverse",
onClick: (text) => text.split("\n").reverse().join("\n"),
});
from 空白を取り除くPopup Menu
#2024-06-05 00:26:55
#2021-03-02 13:59:15