PaLM
PaLMの特徴は機械学習モデルの巨大さだ。PaLMはBERTやGPT-3と同様に、自己注意機構(SA、Self Attention)であるTransformerを多段に積み重ねるニューラルネットワーク構造を採用する。そしてPaLMのニューラルネットワークのパラメーター数は5400億にも達する。BERTのパラメーター数は3億4000万、2020年の発表当時では巨大といわれたGPT-3は1750億であり、過去最大級の規模だ
PaLMには苦手なタスクがあったということだ。具体的には質問応答のタスクの中でも、行き先案内に関するタスクである「navigate」や、数学的証明手法を実世界に応用するタスクである「mathematical_induction」などが苦手だった