MeCab
辞書(システム辞書)
更新は時間がかかりますので、その場合はユーザー辞書を作る
neologd
ipadic
ユーザー辞書の作成
csvファイル
/usr/local/libexec/mecab/mecab-dict-index -d'システム辞書path' -u'ユーザー辞書path' ユーザー辞書path
table: 辞書format
表層形 左文脈ID 右文脈ID コスト 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用型 活用形 原形 読み 発音
工藤 1223 1223 6058 名詞 固有名詞 人名 名 * * くどう クドウ クドウ
13項目ある。
左文脈IDは, その単語を左から見たときの内部状態IDです. 通常システム 辞書と同一場所にある left-id.def から該当する ID を選択します. 空にしておくと mecab-dict-index が自動的に ID を付与します
右文脈も同じ。
コストは,その単語がどれだけ出現しやすいか.... 小さいほど, 出現しやすい..... 似たような単語と 同じスコアを割り振り,
判断いるので、自動化したいけど、10とか, 100 でいいかな、、
品詞と品詞細分類1は、入れないとせっかっくユーザー辞書を運用するなら、、、あとは、読みかな。原型もいる?