ナレッジベースを用いた記事の主題地域推定システム
2024.08.29
著者
https://gyazo.com/10e92b6b2520dea06d9cc8ea879c6349
この論文はどんなもの?
ニュースサイトでの主題地域の推定をするためのKB (Knowledge Base) を用いたシステムの提案
KBを用いるため学習データが不要なシステム
提案手法と単純な都道府県、市町村の名称だけで地域を推定する手法と比較をして提案手法の有効性を示した
先行研究と比べてどこがすごい? (貢献)
機械学習を用いて記事の文章や画像をもとに地域推定する研究はあるが計算資源であることや、学習データにおけるマイナー地域の扱いに注意が必要
機械学習が不要なため潤沢な計算資源や学習データの準備が不要。また、KBが整備されていれば学習データにおけるマイナー地域への推定も強めることができる
新しい建物やランドマークが出現してもKBを一部修正するだけで対応することできるので、データの再作成や再学習等のコストが発生しない
KBの中のエンティティの関連性をもとに出力するため、人間が後から推論理由を把握しやすい
技術や手法のキモはどこ?
問題設定
入力
記事の見出しと本文
出力
0個以上の団体コードのリスト
市区町村を出力対象とするが、文字列として出力すると府中市は東京都と広島県に存在するなどの一意性が保証されないので全国地方公共団体コードを使用する
地域性がまったく無い記事もあれば主題地域が複数ある記事もある
使用するKB
PlaceクラスのエンティティとPlaceクラスの名前、別名、住所、団体コード、郵便番号、包含関係やエンティティ概要に対応するエッジからなるサブグラフ
https://gyazo.com/65d4b0c6139d1784ab41e8136e8b4eaf
辞書の作成
KBから地名が網羅された地名辞書を生成する。KBに含まれるエンティティの名前と別名から地名 -> エンティティIDの対応表である地名辞書を作る。これは一つのkeyに対して複数のvalueが登録されることがある (先程の府中市の例)
フレーズの特定
1. 記事の見出しと本文を形態素に分割する
2. 可能な限り長いキーに合致するように辞書中のキーの出現箇所を記憶しておく
3. 固有表現抽出を並列して行い、IREX分類でのORGANIZATION, LOCATION, ARTIFACTに判定された文字列と部分的にでも重なっている 2 のフレーズを残す (複数残る可能性がある)
(人名と地名の混同を避けるため)
曖昧性の解消
1. 対象フレーズを名前、別名に含むようなエンティティが一つしかなければ、そのエンティティで解決
2. 1. のエンティティを解決先の候補に含むフレーズは 1. のエンティティのみ候補に残す
3. 2. までで対象にならないフレーズで、解決済みのエンティティと同じ都道府県のエンティティは候補に残す
4. 残りはすべて候補として残す
解消先が一択なエンティティを探す (X) -> 候補に含んでいるフレーズも (X) とする -> (X) と同じような都道府県ならおそらく合っているとする
https://gyazo.com/a0b08d6327d90e5838987d79d8e3d052
スコアリングの方法
フレーズにつけたスコアをエンティティ -> 市区町村 -> 都道府県のように、より広い方向に伝搬する
1択ならそのままスコアを伝搬
複数候補なら等分配
最終的に合計を取る
各フレーズのスコアの付け方はフレーズ中の形態素の数 / log(フレーズの出現位置 + C)
Cは任意パラメータ? (記載が無い気がする)
フレーズを構成する形態素の数が多い & フレーズの出現位置が前であるほど重要であるという考え
どうやって手法が有効だと検証した?
2019年のニュース記事1249件を人手でアノテーション
KBと形態素解析、固有表現抽出にはYahoo内製のツールを使用
比較手法
ベースライン
総務省の団体コードデータから都道府県、市区町村の対応表を作成。固有表現抽出でLOCATIONに対応する文字列と部分一致しているものを結果とする
precision が低く recall が高くなるので見出し本文の文字数の20%地点までに出現した文字列だけ使用
その他チューニング
広域文字列の展開 (AE)
気象情報では広域についてまとめて報じられ個々の都道府県について言及しないケースも多い
気象庁の全般季節予報で用いる予報区分・地方季節予報で用いる予報区分を元に該当する都道府県の対応表を作りルールベースでこれらの言い回しが含まれる場合は対応する都道府県を返す
ブラックリスト (BL)
異なる都道府県に存在するエンティティの共通部分文字列となる一般名詞のリストを作成して、人手でレビュー後、残った151件を地名辞書から除く
美術館という別名が登録されているときとされていないときがあり、別の美術館として解決されたりするのを防ぐ
結果
https://gyazo.com/9f2b89f8cf9068a5ac21c010d6903428
ベースラインは false positive が多く precision が低くなっている (recall は高い)
提案手法は recall においてもベースラインよりも高い
AEは狙い通り気象系の記事については recall を上げられたが、他記事での不必要な展開がみられた
ブラックリストは recall を多少犠牲にして precision を大きく上げられた
課題
記事中に存在する地名が主題に関連する地名ではあるが、主題を補足するために出現する地名であるかの見極めが難しい
草津白根山の噴火の記事に書かれている、比較対象としても富士山の記事のような