Perplexity
モデルの評価としては検証データにおけるパープレキシティ (PPL) を使用しています。パープレキシティとは、ざっくり言うと次に来ると予測した単語の数になります。この値が例えば 100 だと、モデルが次に出す単語を 100 個の選択肢まで絞り込めているということになります。この値が小さければ小さいほど、モデルが次に出す単語を絞り込めている = 正しい文を生成しやすくなっているということになります。
モデルの自信。
与えられた入力文章に対するPerplexity(困惑さ)を指標に、使用するモデルを切り替えるシステムを作ります。
イメージ的には、
「文学を学んだモデルを作る」、「科学を学んだモデルを作る」
→「文学系の入力テキストを与える」
→「文学モデルは、文章に馴染み深い(Perplexityが小さい)」、「科学モデルは、文章に馴染みが薄い(Perplexityが大きい)」
→「文学モデルを用いる」
という流れでモデル選択が進みます。
おもろい。
小型LMで情報量を推定、予測が容易なサンプルを切り捨てると、訓練効率が向上する
一様サンプリングより有効なようだけど、低エントロピー領域を一切学習していないし、ランダム性が高すぎるサンプルの相対割合も増えるので、最適ではないと思うな
個人的には「推定情報量によってサンプル割合を重み付けする」というのをよくやる(ちゃんと有効性を検証したわけではないけど)。あとテキストデータならLMじゃなくてgzipとか使う