言語モデルの物理学 - ジョイジョイジョイ
#joisino-hatenablog-com
言語モデルの物理学 - ジョイジョイジョイ
言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使…
AI の話のはずなのに色々と自分に身に覚えのある話が出てきて面白い
言語モデルはデータ増強をしないと全ての情報がそろうまで情報を抽出できない
AはX日生まれ。Y市で育ち、Zに勤務。 みたいなデータを学習させても Aの勤務地は?という簡単な質問に答えられない話
いくつか Q. Aはどこで育ったか? A. Y市 のような質問文と応答文の組をデータセットに入れると答えられる
これ実際私も「フレーズは丸暗記してるけど 途中から聞かれると詰まる」みたいなのあるなって思った
例えば
寿限無の名前、「パイポパイポ」の次は何?
18番目のアルファベットは?
学生時代化学で元素のテストの時、まず暗記した表を書き出してからでないと問題が解けなかった
ルービックキューブの揃え手順、ゆっくり回してると逆に次どう回すのか分からなくなる
言語モデルは逆検索ができない
AI が AはX日生まれ。Y市で育ち、Zに勤務。 を学習して、Aの誕生日は? と聞けば X日 と答えられる状態にする
X日に生まれたのは? という問に答えられない
これまさにクイズとかであるあるな気がする
答え聞いたら「ああ」ってなるのに その情報を逆検索できなかった そういう回路がなかった
なんか教育論読んでるみたいな気持ちになる
#bookmark