https://gyazo.com/2e74e72b86f84cc49151de05f3c2c082
ABSTRACT
表タイトルはコンテンツを理解してもらう上で重要
モバイルだと検索結果に表が出力されるようになってきた(左がGoogle, 右がBing)
従来の方法はそれっぽい単語を選択する方法
提案手法はNN使用して表タイトルの生成に取り組んだ
文書要約の応用バージョン
GoogleBrainの人が研究した要約で強いNNモデル(pointer-generator network)を使用した
1 INTRODUCTION
最近の検索エンジンはユーザー体験向上のため、サイトのリンクだけでなくユーザーが求めてる結果を直接表示するように試みてる
tableやlistなのでsemi-structuredな形で表示される
「U.S. states by population 2018」で検索すると次のように表示される
https://gyazo.com/0c715737fe1df4202b8add96fcfaf58b
内容を理解する上で意味のあるタイトルがついていることが重要
次の表のようにタイトルがないと表の内容を理解しづらい
ということで文書要約の観点からよい表タイトル生成に取り組んでみた
https://gyazo.com/096c5afc3488f91aad4f57d2da604925
1.1 Challenges
1. 表タイトルのもととなる要素はWebページ上に散らばっているので生成自体がチャレンジング
https://gyazo.com/bf7e579cf8429ea57846c7c4027b82e9
2. 人が聞いて自然に聞こえるタイトルにしないといけないところがチャレンジング
3. レア語やout-of-vocab (OOV) tokensに対応するところがチャレンジング
4. Webページによってtableの形状がまちまちなのでそこに対応するのがチャレンジング
カラムが横にのびていくのか、下にのびていくのかなどなど
自動生成したタイトルは2つの評価軸を満たす必要がある
関連性(タイトルと内容が一致しているか)
可読性(人が読みやすく自然に聞こえるか)
1.2 Conventional Approaches
Webページの中から表の内容と一致するものを選択していた
1.3 Proposed Approach
sequence-to-sequenceのNNモデルで生成と選択(copy)の両方を使用する
貢献
タイトル生成いい感じにできた(semi-structuredの考慮、OOV tokensやレア語の考慮)
copyと生成でいい感じにできた
関連性と可読性の評価軸を導入した
要約でよく使用するROUGEスコアも見ている
2 WEB TABLE TITLE GENERATION
2.1 Web Tables
Webにはtableがたくさんある
2008年の研究では141億のテーブルを抽出したとか
tableに関する様々な研究も行われてきた
table classification, relation extraction, knowledge base construction, data cleaning, query answering using tables,
https://gyazo.com/bf7e579cf8429ea57846c7c4027b82e9
人がこのテーブルの意味を把握するのはたやすいが、生成するのは情報が散らばっているため大変
タイトル生成するもととしてWebページ全体の情報を考慮すればよいがそうするとノイズが多すぎる
タグ情報を有効的に使おう
https://gyazo.com/a9eb67acb357f9c1c4f972c69ba63a20
2.2 Representing Semi-Structured Data
タグの説明を詳細にしてるよ
2.3 Supporting Compositionality
それぞれのスニペットはタイトルと関連あるが、構成をちゃんとしないとわかりやすさに問題が生じる
クラウドソーシングでデータセットちゃんとつくってよしなに頑張ったよ
https://gyazo.com/11d62ccffa59d18d231d213047ba5120
2.4 Handling Rare and OOV Tokens
レア語、OOV対応はテキスト生成の重要なポイント
「people shopping at an outdoor market」=> わかりやすい, 「countries and numbers」=> わからない
https://gyazo.com/08afc271bd6095911e7aef75548329f7
100%タイトル生成するのではなく、既存のテキスト情報をcopyする仕組みを入れている
「Action Films Starring」とあれば次の単語は俳優/女優が確率高い
そして名前をテーブルのメタ情報見てよしなにcopyする
2.5 Model Selection
pointer-generator network
https://gyazo.com/e763b84d30a747248526c910992bb470
https://gyazo.com/4259ea495860d548d71e33028590d01b
ct = context vector, xt = decoder input, ht = hidden state
https://gyazo.com/5e5541c6e53d59e4b9d80dd844c61161
loss function was the average negative log likelihood
Adagrad optimizer with an initial learning rate of 0.15, gradient clipping of 2.0
early stopping on a validation set to control overfitting
During training we calculated ROUGE-1, ROUGE-2, and ROUGE-L scores as proxies for title quality
https://gyazo.com/2f763c098a7208644d5586fd6633b3dd
2.6 Reducing Token Duplication
it generates “Highest Salaries NBA NBA NBA” instead of “Highest Salaries in the NBA” or “Highest Salaries of NBA Players”
pointer-generator networkの論文だとcoverage mechanismを使用してるが
タイトルは記事要約よりもずっと短いので、ヒューリスティックに同じトークンが含まれる確率をゼロにしてる
「La La Land Awards」とかあるので完璧ではないがだいたい良さそう
3 DATASET CREATION
3.1 Crowdsourced Dataset
2017年1月から5月までの5ヶ月間、10,102のWebテーブル
どうやってデータつくったとか事細かに
3.2 Heuristic-based Datasets
4 EXPERIMENTAL EVALUATION
https://gyazo.com/081ac5af21da94937ec4d2c2f8d88a2d
relevance, readabilityは人が評価
readability, 1 = Poor, 2 = Medium, 3 = Well.
relevance, 1 = Needs Not Met, 2 = Needs Somewhat Met, 3 = Needs Fully Met
Copy Only mode (Pgen hardcoded to 0 so no tokens are generated)
Generate Only mode (Pgen hardcoded to 1 so all tokens are generated, as in a standard sequence-to-sequence model)
https://gyazo.com/5e5541c6e53d59e4b9d80dd844c61161
https://gyazo.com/2d201c0a4cc0887c6dfd3b25ac4709cc
5 RELATED WORK
割愛
6 FUTURE WORK
pointer-generator networkは小さいデータ・セットで効果的な結果が出せた
すべて生成するよりもコピーすることでよりよい結果が出せた
“the following table” and “as shown below”みたいな表現がまま見つかった
長いインプットに対してはLSTMやTransformerを使うと良いかも
7 CONCLUSION
割愛
所感
細かい手法、数値を共有していて非常に好感が持てる