自然言語処理
Encodingの歴史
LV1 One-hot vector = 0,0,0,1,0,0,0 (only one 1 (hot))
LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important
LV3 Word2vec = x,x,x king - distance(male,female) (includes some essence tf-idf
LV4 BERT
BERT can’t understand he/she (pronouns)
But, it 推測 from surrounding other words (word sense disambiguation)
https://ishitonton.hatenablog.com/entry/2018/11/25/200332
embeddingについて
-.icon
情報科学の達人.icon
言語学と情報科学が重なる分野
アプローチ
人間が言語の入力/出力を行う仕組みを知りたい
脳科学とか使わないと脳の情報処理はわからない
なので、観測可能な言語を通じて仕組みを探る
やることの一部
機械翻訳
文章読解
テキストマイニング: ツイート等の膨大な自然言語データーから情報を得る
ただの言語の処理だけではない
言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる
blu3mo.icon イメージ以上に広い分野
方法論
文字列として処理はできない (ケヤキとケーキは文字列としては近い、意味的には全然違う)
意味をどのように扱うか
意味とは?: 人間が同値性を判定できるもの
(頭の中の処理は観察できないので、観察できる同値性の判定を用いる)
「離散構造」と「連続的規則性」をどう組み合わせるか
自然言語の構造は、正誤がはっきりしている = 離散値構造的な規則性がある
ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題
ただ、あいまい性、不確実性もある (統計的、連続値的な性質)
言語のあいまい性と直結
つまり、離散的・連続的の複合的な性質を持つ
何をコーパスから学ぶか
自然言語テキストデーターのことを「コーパス」という
規則性等をコーパスから学べる
ex: 言語モデル (文らしさを評価)
技術として一番よく使うのはやはり機械学習
構文解析
文章の構文を理解する技術
詳しく↑に書いた
意味解析
文章/単語の意味を理解する技術
詳しく↑に書いた