キーワード抽出
1単語に止まらないことを強く意識しているときにこの言葉になっている
「100人100通りの人事制度」とか「和で評価するとジェネラリストが選ばれる」などが選ばれて欲しい
世の中の「キーフレーズ抽出」という言葉でも、しばしば「名詞の列」とか「形容詞*名詞+の形」などの制約がかかっている
そういう制約のかかっている手法では上記のようなキーフレーズを抽出することができない
しばしば文中に出現しない文字列をキーフレーズにしたい時がある
「情報の共有」「情報を共有する」というフレーズがあるときに「情報共有」というリンクでつながって欲しい
手法
言語知識を使わないアプローチ
単語の並び順の情報を捨ててしまう
熟語が分割される「本部長会」問題
同義語は別物とされる
コロケーション
N-gramなど
ウィンドウ内共起
ドキュメント内共起
ストップワードが0/1であったのに対し、実数値のスコアを対応づけるアプローチ
「他の文章での出現頻度が低いほど、この文章を特徴付けるものとしてふさわしい」
単語としては出現頻度が高いが、熟語の形で重要なキーフレーズなことがある
グラフベース
単語の隣接関係をグラフにして、位数の大きいものを選ぶ
PageRankをつかう