pytermextractを試す
ディレクトリ構成
code: txt
pytermextract-0_01 # 解凍したフォルダ
├── build
├── documents
├── pytermex # スクリプトがある
├── readme.txt
├── setup.py
├── termextract # パッケージ本体
├── test_data # スクリプトを動かすのに使うテキスト
└── tests
スクリプトは出力先のファイルパスがハードコードされていて使いづらい(output関数)
英語
termex_eng.pyに渡せばよさそう
入力したファイルの内容(str)を引数に、nltk.word_tokenizeを呼んでいる
currently an improved TreebankWordTokenizer along with PunktSentenceTokenizer for the specified language
sent_tokenizeで文に分け、word_tokenizeで単語に分ける
termex_eng_plain.py のdocstringでも入力するテストデータはtermex_eng.pyと同じ形式
依存するモジュールの中でSTOPWORDS_LCを定義している
日本語
termex_mecab.py
mecabで形態素解析した結果をファイルに保存しておき、入力する
悪戦苦闘の末ラップした
ディレクトリ構造
日本語
トークの元テキスト
分かち書きしたテキスト
termex_mecab.py で mecab_extracted.txtができる(再利用しづらいコード)
結果フォルダにmvする
英語
同様