自然言語処理のための深層学習
ニューラルネットワークの即水戸その言語データへの応用の紹介
筆者の概説論文[Goldberg, 2016]から生まれた本
https://gyazo.com/0b3b22d694ffe8ae699d1bf740cf0682 https://www.amazon.co.jp/dp/4320124464
2017年
日本語番は2019
自然言語を機械学習で扱う際の特徴
離散的 discrete
構成的 compositional
スパース(疎か sparse
歴史的には頭脳の中で行われる計算の仕方に示唆を得たもので、パラメータを持つ微分可能な数学的関数の学習として特徴づけることができるような学習技法の一族
人間の設計者は、以下の責任を持つ
ネットワークアーキテクチャと訓練手順の設計
適切な入出力集合の提供
入力データを適切に符号化(encode)
正しい表現を学習することは、ネットワークアーキテクチャに支援され、ネットワークによって自動的に行われる
離散的なシンボルから、比較的低次元である空間の連続ベクトルへの写像を行う
代表的なネットワークアーキテクチャ
フィードフォワードネットワーク
再帰的(recurrent)/ 木構造(recursive)ネットワーク
recurrentは再起とかかも
系列データのための特別なアーキテクチャ
項目の系列を入力として受け取る
系列の要約したよな固定長のベクトルを生成
「系列の要約」はタスクごとに異なる
フィードフォワードネットワークにわたす形でよく用いられる
過去全体に基づいてstateを持てるということか
言語モデリング language modeling
系列に置いて次の単語の確率を予測するタスク
木構造ネットワークは、系列から木へと拡張したもの
自然言語における多くの問題は構造を持っている(structured)
系列や木など、複雑な出力構造を要求する
線形モデルのための構造予測アルゴリズム
seq to seq
条件付き生成モデル( conditioned generation model)
encoder-decoderモデル
マルチタスク学習
反教師あり学習 semi-supervised learning
featureは特徴量とかと訳されるが、この本では素性と訳している
なるほどmiyamonz.icon
第二章冒頭
ニューラルネットワークは、教師あり機械学習アルゴリズムに分類される
とあるが、MaskedLMのように、教師無しでも事前学習できたりする
というか、書籍自体にnグラムの学習に大量の文章あればいいことは書いてある
もうちょい後ろの章
まああくまで文章から教師ありデータを構築しているから、無しではないか。
そういう意味なら、mlmも教師なしとカウントするのは間違いか。