corpus
wikipedia
xmlになったdumpが利用できる。
加工用の scriptが、いろんなところに落ちてる。
概念辞書。基本は英語の(正規化された)単語(lemma)ベースで作られてる。
概念は、
関係する単語の集合を持つ。(sense)
簡単な説明がされている( synset_def)
概念動詞の関係が示されている (synlink)
単語の集合については、各国語でそれぞれカバー(率は違うが) があるので、英語以外でも、概念適用できる。
単語(lemma) と 概念は N:N の関係
概念は、関係する複数の単語からなる
単語は、複数の概念に分布する
ただ、N=1の場合もおおそう
ある概念が単語1つしかもたない。その概念はその単語で説明できるが、、その単語は複数の概念にいるかも...
上記の逆もあり、、N:Nの関係は、、もやっとする。どう整理されるだろうか?
たぶん、概念(synset)の方の関係の図示。まだ、このあたりはカバーできてない。
https://gyazo.com/2a95a525d505b890bcfe7f28e8f3f0db