スケーリング則
時間と費用を掛けた巨大なモデルほど、より高い性能を発揮できるという法則
自然言語処理モデルのパラメーター数(=モデルのサイズ)や、データセットのサイズ、トレーニングに使用される計算(Compute)量が増えるにつれて、損失(Loss、誤差)が「べき乗則」に従って減少する、という法則のこと
https://scrapbox.io/files/657e6386bc34070023243374.png
・OpenAIは、この論文の内容に従って、GPT-2よりも大規模なGPT-3やGPT-4などの言語モデルを作ってきた。 ・しかし2023年4月、OpenAIのCEOであるサム・アルトマン(Sam Altman)氏が「巨大なAIモデルの時代はすでに終わった
と主張し、今後はスケーリング則に頼らない手法(その有望な手法の一つが「RLHF:人間のフィードバックを使った強化
学習」)の採用を考えていることが報じられた
・スケーリング則のように際限なく巨大化する手法は、データセンターの構築やコストなど物理的な限界があるため。