Are All People Married? Determining Obligatory Attributes in Knowledge Bases
Author
パリの通信系の最高峰の学校らしい
Jonathan Lajus
Telecom ParisTech
Paris, France
jlajus@telecom-paristech.fr
Fabian M. Suchanek
Telecom ParisTech
Paris, France
suchanek@telecom-paristech.fr
どんなもの
データを活用したアプリケーションのサービスの品質はKnowladge Bases(KB)の completeness に左右されるから、データの完全性って大事。ここでいう、データの完全性とは、KBの必須プロパティが欠損していないこと。そこで、クラスに対する必須プロパティを自動的に検出する手法を提案。
https://gyazo.com/481e21a84f0e1fad02bfc0fba80e4a81
ここがすごい
KBのクラスに対する必須プロパティを検出しなければならないという新たな課題を定義している。その課題に対しての以下の利点がある手法を提案している
必須属性を自動的に決定できるアルゴリズムを提案
競合他社との異なるデータセットでの広範な実験。必須属性を最大90%の精度で検出
ここが大事
提案手法: Confldence Ratio(Strict)
プロパティpをもつインスタンスの集合に、クラスcが他のクラスとあまり重複することなく、プロパティpを持っている場合は必須プロパティとしている風である。
$ conf(A \subseteq B) = \frac{A \cap B}{|A|}
$ s^K_p(c, c') = \frac{conf(c \backslash c' \subseteq p_K)}{conf(c \cap c' \subseteq p_K)}
https://gyazo.com/fb061c015c2599f173547cf9dadc0ad1
If Confdence Ratio(Relaxes)
Line4 ->
if $ log(s_p^K(c, c')) < - log(\theta)
単純なアルゴリズムでBaseLineを凌駕する性能がでている
どうやって検証
YAGOとWikipediaのKBに対して、ある条件を課したデータを抽出してDatasetとして、それらに提案手法を適用した。
BaseLineとして、単純な手法を用いて提案手法の有効性を示している。
Dataset
YAGO(5 million instances and around 54,000 classes with more than 50 (direct or indirect) instances.)
https://gyazo.com/a1d9b5b030375a04e5a21e914ddece74
YAGO ・Wikipedia( 1023 classes, around 1.6 million instances, and 2569 properties)
https://gyazo.com/321eab6a5fe000159a00a7c1ab88ea7c
YAGOとWikipediaの双方のDatasetにおいても高いF値とPrecisionが出ていることが確認できる。
所感
細かいところは拝読していないが、問題設定とそのシンプルな手法が評価されてるのではないかと予想。
かなりシンプルなアルゴリズムであることと、Precisionが良いが、Recallは満たしていない問題が多いので、これからの発展があるのではないかと見ている。
(precisionの精度をわりと向上させているが、必須プロパティがクラス間で重複している場合はどうするのだろうという疑問が湧いている)