自然言語処理
Encodingの歴史
LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important
LV3 Word2vec = x,x,x king - distance(male,female) (includes some essence tf-idf LV4 BERT
BERT can’t understand he/she (pronouns)
But, it 推測 from surrounding other words (word sense disambiguation)
embeddingについて
-.icon
情報科学の達人.icon
アプローチ
やることの一部
ただの言語の処理だけではない
言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる
blu3mo.icon イメージ以上に広い分野
方法論
文字列として処理はできない (ケヤキとケーキは文字列としては近い、意味的には全然違う)
意味をどのように扱うか
(頭の中の処理は観察できないので、観察できる同値性の判定を用いる) 「離散構造」と「連続的規則性」をどう組み合わせるか 自然言語の構造は、正誤がはっきりしている = 離散値構造的な規則性がある ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題
言語のあいまい性と直結
何をコーパスから学ぶか
自然言語テキストデーターのことを「コーパス」という 文章の構文を理解する技術
詳しく↑に書いた
文章/単語の意味を理解する技術
詳しく↑に書いた