Migemo
いちいちかな/漢字変換する必要がなくなる
仕組み
入力されたローマ字に一致するひらがな・カタカナ・漢字の語句候補を全てつなげた正規表現を作り、それで検索をかける。
e.g.
nezと入力すると、
/nez|nez|ねざ|ネザ|ねじ|ネジ|ねず|ネズ|ねぜ|ネゼ|ねぞ|ネゾ|ねっ|ネッ|根差|根魚|根崎|寝醒め|根差し|寝惚|寝相|根津|禰津| 鼠|鼡|鼠色|鼠男|鼠達|鼠取|捻|捩|螺|捻子|螺子|捩子|ネジ|拗|捻じ伏|捩じ込み|根占|捩じり鉢巻き|捩り鉢巻き|根城/が生成される
文字クラスを使って圧縮し、歯抜け検索に対応させると↓になる
/[鼠捻螺拗捩鼡]|ns *es *z|ns *es *z|ねs *[ざじずぜぞっ]|ネs *[ザジズゼゾッ]|根s *[魚差崎城占津]|寝s *(?:[惚相]|醒s *め)|禰s *津/
Reference
増井俊之.iconさんが共著している論文
応用例も載ってる
C言語による実装
だれかRustに移植してtakker.icon
「migemo」という名前は、ググラビリティだけ考えてつけたものらしいです 増井俊之.icon hata6502.icon 👀
「テキスト全体を内部的にローマ字に変換して、そのローマ字に対して検索を行なう」方法
編集完了したテキストや、現在のコンピュータリソースなら可能かも?と思いました。
増井俊之.icon