2019/09/19 A Context-based Framework for Resource Citation Classification in Scientific Literatures Abstract
- 科学論文の引用を分類するタスクについて
- ニューラルベースド (bi-lstm) モデルベースの新しいアノテーション法を考案した
- この成果は論文リソースを探したり、レコメンドするシステムに使えるかもしれない
Introduction
- 近年、オンライン上の科学論文数は飛躍的に増えている
- ソフトウェアやツールによって索引を作ったり、レコメンデーションシステムをつくったりすれば研究者を助けられるだろう
- この論文では、われわれは新しいタスク 「リソース引用分類」を考案した。
- グーグルは2018年に新しい論文検索エンジンを作ったが、データセットは名前が完全一致するときのみに引っかかる。
- より良い論文検索のためにはリソース引用分類が必要だ。
- これまでのところ、我々の知り得る範囲ではこれまでのところこのようなタスクは存在しておらず、我々がはじめてやった。
タスクの詳細
https://gyazo.com/656ff78b0857540e1b60292eaf368734
用語集
- resource citation: 著者が触れているハイパーリンクで、リンク先にオンラインリソースがあるやつ
- resource context: resource citation の前後を取り囲む文
- resource role: リソースの役割 (Tool, Data, Codeなど)
- resource function: 論文に対して、どんな目的をもっているか (Use, Produce, Compareなど)
やったこと
- 手動でアノテーションをして、3,088サンプル集めた。
- Bi-LSTMベースのモデルを作って、論文を解析した。
- 他のいろいろなモデルと比較して、良いパフォーマンスが得られた。
- ARCデータセットを用いて、論文の役割が時間とともにどう変化していくのかを調べてみた。(おまけ的な?)
データセット
- reosource role は9個 (Tool, Code, Data, Website, Algorithm, Document, Media, Licence, Paper)
- resource function は6個 (Use, Produce, Introduce, Compare, Extent, Other)
- タスクの複雑さより、すぐに使えるデータセットがなかったので作った。
- ACL, ARC, NIPS Proceedings, PubMed をソースとしてPDFを集めた。
- OmnipageをOCRとして使った。
- メタデータみたいのを取得するのにParsCitを使った。
- 合計 52,705 サンプルが得られた。:
- アノテーションは3人のPh.Dの学生(NLP, deep learning, biological information)がやった。
- それぞれ、1100サンプルずつやってもらった。
- 10 ワードよりも少ないサンプルは除外した。
- Fleiss's Kappa = 0.47 で、タスクの難しさを考えると良いらしい。 (どれくらい合意できてるか的な指標か?)
- 媒体によっていろいろ特徴があった(下図)
https://gyazo.com/ad33150a67cae58e3783666139b1dd2e
分類するためのモデル
- citationの文章は短いので、難しい
- リンクの近くにある単語は大事 (use, apply, adoptとかがある)
- 数式とかあるし、OCRがスペルミスしたりして難しかった
- モデルは4層(word representation, world lstm, attention, output)から成り立つ
- 1) word representation layer: 文字ベース、文字列ベース、文法(?)ベースで連結する
- 2) world lstm layer: Bi-LSTMモデルで、文章を表現するやつ。
- 3) attention layer: それぞれの単語表現(LSTMの隠れ層にいる)に、カテゴリごとに重み付けする。
- 4) softmax関数で、role と function を予測する。
実験
- f1 score を指標にした
- Average Embedding + LR/SVM, TextCNN, LSTM, RCNN, FastText と比較。
- 結果は他のモデルよりも良かったけど(下表)、それでもまだまだ (f1=0.53)
- リソースがfunctionが時系列でどう変化していくのかを調べたのが下図
https://gyazo.com/af9461604718dc42ec8c5adab3f50338
https://gyazo.com/769bb740a674e57ff528180f6c8f7c43
完。