自然言語処理 - bluemo-public

自然言語処理

Encodingの歴史

LV1 One-hot vector = 0,0,0,1,0,0,0 (only one 1 (hot))

LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important

LV3 Word2vec = x,x,x king - distance(male,female) (includes some essence tf-idf

LV4 BERT

BERT can’t understand he/she (pronouns)

But, it 推測 from surrounding other words (word sense disambiguation)

embeddingについて

-.icon

情報科学の達人.icon

アプローチ

人間が言語の入力/出力を行う仕組みを知りたい

脳科学とか使わないと脳の情報処理はわからない

なので、観測可能な言語を通じて仕組みを探る

やることの一部

テキストマイニング: ツイート等の膨大な自然言語データーから情報を得る

ただの言語の処理だけではない

言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる

blu3mo.icon イメージ以上に広い分野

方法論

文字列として処理はできない　（ケヤキとケーキは文字列としては近い、意味的には全然違う）

意味をどのように扱うか

意味とは?: 人間が同値性を判定できるもの

（頭の中の処理は観察できないので、観察できる同値性の判定を用いる）

「離散構造」と「連続的規則性」をどう組み合わせるか

自然言語の構造は、正誤がはっきりしている = 離散値構造的な規則性がある

ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題

ただ、あいまい性、不確実性もある (統計的、連続値的な性質）

言語のあいまい性と直結

つまり、離散的・連続的の複合的な性質を持つ

何をコーパスから学ぶか

自然言語テキストデーターのことを「コーパス」という

規則性等をコーパスから学べる

ex: 言語モデル (文らしさを評価)

技術として一番よく使うのはやはり機械学習

文章の構文を理解する技術

詳しく↑に書いた

文章/単語の意味を理解する技術

詳しく↑に書いた