キーフレーズ候補集合の作成
キーフレーズ抽出
において、候補をどう作るかが問題
RAKE
ではストップワードをデリミタとして刻む
TextRank
は最初に名詞と形容詞以外をフィルタしている
フレーズベースTF-IDF
は最長名詞句だけを使う
すべての部分文字列を候補とする
未踏テキスト情報中のキーワードの抽出システム開発
かっこで囲まれている文字列はキーワード候補に入れたい
候補に対してスコアを計算し、大きなものを取るアプローチでキーフレーズを見つけようとする場合
EmbedRank
では元の文書との類似度が使われるので候補に文章自体が含まれるといけない