[2019/06/20] Generating Titles for Web Tables

2019/06/20 Generating Titles for Web Tables

https://gyazo.com/2e74e72b86f84cc49151de05f3c2c082

ABSTRACT

表タイトルはコンテンツを理解してもらう上で重要

モバイルだと検索結果に表が出力されるようになってきた（左がGoogle, 右がBing）

従来の方法はそれっぽい単語を選択する方法

提案手法はNN使用して表タイトルの生成に取り組んだ

文書要約の応用バージョン

GoogleBrainの人が研究した要約で強いNNモデル（pointer-generator network）を使用した

1 INTRODUCTION

最近の検索エンジンはユーザー体験向上のため、サイトのリンクだけでなくユーザーが求めてる結果を直接表示するように試みてる

tableやlistなのでsemi-structuredな形で表示される

「U.S. states by population 2018」で検索すると次のように表示される

https://gyazo.com/0c715737fe1df4202b8add96fcfaf58b

内容を理解する上で意味のあるタイトルがついていることが重要

次の表のようにタイトルがないと表の内容を理解しづらい

ということで文書要約の観点からよい表タイトル生成に取り組んでみた

https://gyazo.com/096c5afc3488f91aad4f57d2da604925

1.1 Challenges

1. 表タイトルのもととなる要素はWebページ上に散らばっているので生成自体がチャレンジング

https://gyazo.com/bf7e579cf8429ea57846c7c4027b82e9

2. 人が聞いて自然に聞こえるタイトルにしないといけないところがチャレンジング

3. レア語やout-of-vocab (OOV) tokensに対応するところがチャレンジング

4. Webページによってtableの形状がまちまちなのでそこに対応するのがチャレンジング

カラムが横にのびていくのか、下にのびていくのかなどなど

自動生成したタイトルは2つの評価軸を満たす必要がある

関連性（タイトルと内容が一致しているか）

可読性（人が読みやすく自然に聞こえるか）

1.2 Conventional Approaches

Webページの中から表の内容と一致するものを選択していた

1.3 Proposed Approach

sequence-to-sequenceのNNモデルで生成と選択（copy）の両方を使用する

貢献

タイトル生成いい感じにできた（semi-structuredの考慮、OOV tokensやレア語の考慮）

copyと生成でいい感じにできた

関連性と可読性の評価軸を導入した

要約でよく使用するROUGEスコアも見ている

2 WEB TABLE TITLE GENERATION

2.1 Web Tables

Webにはtableがたくさんある

2008年の研究では141億のテーブルを抽出したとか

tableに関する様々な研究も行われてきた

table classification, relation extraction, knowledge base construction, data cleaning, query answering using tables,

https://gyazo.com/bf7e579cf8429ea57846c7c4027b82e9

人がこのテーブルの意味を把握するのはたやすいが、生成するのは情報が散らばっているため大変

タイトル生成するもととしてWebページ全体の情報を考慮すればよいがそうするとノイズが多すぎる

タグ情報を有効的に使おう

https://gyazo.com/a9eb67acb357f9c1c4f972c69ba63a20

2.2 Representing Semi-Structured Data

タグの説明を詳細にしてるよ

2.3 Supporting Compositionality

それぞれのスニペットはタイトルと関連あるが、構成をちゃんとしないとわかりやすさに問題が生じる

クラウドソーシングでデータセットちゃんとつくってよしなに頑張ったよ

https://gyazo.com/11d62ccffa59d18d231d213047ba5120

2.4 Handling Rare and OOV Tokens

レア語、OOV対応はテキスト生成の重要なポイント

「people shopping at an outdoor market」=> わかりやすい, 「countries and numbers」=> わからない

https://gyazo.com/08afc271bd6095911e7aef75548329f7

100%タイトル生成するのではなく、既存のテキスト情報をcopyする仕組みを入れている

「Action Films Starring」とあれば次の単語は俳優/女優が確率高い

そして名前をテーブルのメタ情報見てよしなにcopyする

2.5 Model Selection

pointer-generator network

https://gyazo.com/e763b84d30a747248526c910992bb470

https://gyazo.com/4259ea495860d548d71e33028590d01b

ct = context vector, xt = decoder input, ht = hidden state

https://gyazo.com/5e5541c6e53d59e4b9d80dd844c61161

loss function was the average negative log likelihood

Adagrad optimizer with an initial learning rate of 0.15, gradient clipping of 2.0

early stopping on a validation set to control overfitting

During training we calculated ROUGE-1, ROUGE-2, and ROUGE-L scores as proxies for title quality

https://www.aclweb.org/anthology/W04-1013

https://en.wikipedia.org/wiki/ROUGE_(metric)

https://gyazo.com/2f763c098a7208644d5586fd6633b3dd

2.6 Reducing Token Duplication

it generates “Highest Salaries NBA NBA NBA” instead of “Highest Salaries in the NBA” or “Highest Salaries of NBA Players”

pointer-generator networkの論文だとcoverage mechanismを使用してるが

タイトルは記事要約よりもずっと短いので、ヒューリスティックに同じトークンが含まれる確率をゼロにしてる

「La La Land Awards」とかあるので完璧ではないがだいたい良さそう

3 DATASET CREATION

3.1 Crowdsourced Dataset

2017年1月から5月までの5ヶ月間、10,102のWebテーブル

どうやってデータつくったとか事細かに

3.2 Heuristic-based Datasets

4 EXPERIMENTAL EVALUATION

https://gyazo.com/081ac5af21da94937ec4d2c2f8d88a2d

relevance, readabilityは人が評価

readability, 1 = Poor, 2 = Medium, 3 = Well.

relevance, 1 = Needs Not Met, 2 = Needs Somewhat Met, 3 = Needs Fully Met

Copy Only mode (Pgen hardcoded to 0 so no tokens are generated)

Generate Only mode (Pgen hardcoded to 1 so all tokens are generated, as in a standard sequence-to-sequence model)

https://gyazo.com/5e5541c6e53d59e4b9d80dd844c61161

https://gyazo.com/2d201c0a4cc0887c6dfd3b25ac4709cc

5 RELATED WORK

割愛

6 FUTURE WORK

pointer-generator networkは小さいデータ・セットで効果的な結果が出せた

すべて生成するよりもコピーすることでよりよい結果が出せた

“the following table” and “as shown below”みたいな表現がまま見つかった

長いインプットに対してはLSTMやTransformerを使うと良いかも

7 CONCLUSION

割愛

所感

細かい手法、数値を共有していて非常に好感が持てる