Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Submitted on 29 Jan 2024

Authors : Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly

(Carnegie Mellon Univeristy, Apple)

Link : https://arxiv.org/abs/2401.16380

読み手 : #takupista

選んだ理由

LLMの学習時間がかかるほどコストが上がるので、事前学習データの高品質化による学習効率の向上を謳ったところに興味をそそられました。

論文の概要

この論文では、ウェブ上の文書を言語モデル(LLM)の事前学習データとして用いる際、そのままではノイズが多く質の低いデータが含まれるという課題に対し、事前学習済みの教師あり学習モデルを用いてウェブ文書をパラフレーズすることでデータの質を向上させる手法 WRAP (Web Rephrase Augmented Pre-training) を提案。

WRAPを用いることで、事前学習の高速化(計算量を1/3に削減)と同じ事前学習の計算資源量下で性能向上(パープレキシティを10%以上改善、13のゼロショットQAタスクの精度を2%以上向上)を実現。

注釈

言語モデル(LLM) : 大規模なテキストデータから統計的な言語の規則性を学習したモデル。次の単語予測などの言語処理タスクに利用される。

パラフレーズ : 文章の意味を保ったまま表現を変える言い換え処理。

パープレキシティ : 言語モデルの性能指標。モデルが予測する単語の確率の逆数の幾何平均。値が小さいほど良いモデル。

ゼロショット学習 : 学習時に見ていないタスクに対する汎化性能を評価する設定。プロンプトのみでタスクを解かせる。

言語モデルのスケーリング則(チンチラスケーリング則 (Hoffmann et al., 2022)) : モデルサイズの増加とともに、学習の計算量とデータサイズの両方を線形に増やす必要がある。

https://gyazo.com/e18e85ff70fe8e087bba36252df8c79c

問題設定と解決した点

ウェブ上の膨大な文書データを言語モデルの事前学習に用いることは一般的だが、そのデータの多くはノイズが多く質が低いという問題がある。データ量を増やすだけでは学習に多大な計算コストと時間がかかり(例: 1兆トークンの学習に数週間)、質の高いデータの枯渇も懸念される。

本研究ではWRAPにより、教師あり学習済みモデルを用いてウェブ文書を「Wikipediaのような」「Q&A形式」などの特定のスタイルにパラフレーズすることで、元データと合成データを組み合わせて事前学習することを提案。これにより、(1)高品質のデータを効率的に生成でき(GPT-3.5の1/10のコスト)、(2)downstream taskのスタイルに近いデータを事前学習に活用できるという利点がある。

技術や手法のキモ

WRAPの鍵となるのは、事前学習済みの大規模言語モデル(ex. Mistral-7B)を用いたパラフレーズによる合成データ生成。具体的には、ウェブ文書に対し「Wikipediaのような高品質な英語で」「Q&A形式で」などのプロンプトを与えることで、様々なスタイルのパラフレーズを生成。

4つの言い換えスタイル（Easy, Medium, Hard, Q/A）を設計し、それぞれのスタイルに適したプロンプトを用意。

Easy : 幼児でも理解できるような平易な表現

Medium : Wikipediaのような標準的な表現

Hard : 学術的で難解な表現

Q/A : 質問応答形式

例えば、「Mediumスタイル」の場合、「次の段落をWikipediaの文章のような高品質な英語に言い換えてください」というプロンプトを用いる。

プロンプト自体は、Medium スタイルの LLM の出力を GPT-4 の出力と比較し、反復的な人間のフィードバックを使用して作成されたもの。

各例は最大300トークンで、これは300トークン以上をLLMに言い換えるように求めると、多くの場合、情報が失われることを経験的に観察したことに基づいて決定された。

GPT-3.5のような巨大モデル(175B)ではなく、比較的小さなモデル(7B)でパラフレーズできる点がポイント。新しい知識は追加されず元の情報が保持されるため、ウェブデータの多様性を活かしつつ、質の高いデータを低コストで生成できる。

高品質な合成データを活用することで、同等の性能を達成するために必要なトークン数を減らせる (コストカットできる)。

スタイルの多様性を組み込むために、実データと合成データを1:1の割合でサンプリング。

実データを使い、タイプミスや言語的エラーのようなノイズの多いWebテキストも理解できるようにする狙いがある。

注釈

Mistral-7B : フランスのAIスタートアップであるMistral AI社が開発した、70億パラメータの大規模言語モデル。

主張の有効性検証

事前学習の計算量は、WRAPを用いることで 1/3 に削減(300B tokens → 100B tokens)。

パープレキシティ評価では「C4のみで目的関数を最小化したモデル」と「C4と合成言い換えデータで目的関数を最小化したモデル」を意味のある比較をするため、Pile(Gao et al., 2020) の 21の異なるドメイン上の汎化能力を評価。

同じ事前学習の計算資源量下では、10%ほどパープレキシティが改善。

C4データセットのわずか15%の実データと合成言い換えの組み合わせで学習した350Mパラメータモデルは全部を使って事前学習した1.3Bパラメータと比較した場合には、約50%ほどパープレキシティが改善。

一般的なQA タスクでは、C4データセットのみで学習したモデルが平均47.4%であるのに対し、C4データセットと合成データ(Synthetic+C4)で学習したモデルは平均49.4%と、全体的な性能が向上。

合成データを含めることで、NLPモデルの一般的な理解能力を高められることを示している。

補足として、10倍の計算量とデータで学習された TinyLlama モデルは実データのみで学習された他のモデルと同等の性能しか示しておらず、実データをフィルタリングしたり、追加したりすることによる利点がほとんどないことを示唆。

専門的なQA タスクでは、合成データでは「新しい知識」を与えることはできないということが改めてわかった。

合成データは事前学習を高速化するのに役立つが知識レベルの向上までは至らない。

注釈

C4データセット : Common Crawl から収集されたウェブ文書のうちクリーニング済みの英語データをまとめたデータセット(800GB)。

Pileデータセット : 多様なドメイン(Wikipedia、GitHub、PubMed等)の英語文書をまとめた800GBのデータセット。

TruthfulQA : 正直で事実に基づく回答を要求する質問応答データセット。

https://gyazo.com/5a9933100caf0afebdfce88a0f145df7

議論すべき点

合成データの生成コストは無視できない。

著者らの実験では、Mistral-7Bモデルを使用してA100 GPU 1枚で1時間あたり300万トークンを生成でき、85Bトークンの生成に約25,000GPU時間（約1,042GPU日）を要した。

合成データの生成にもコストがかかるため、総合的なコスト削減効果は小さくなる可能性がある。

パラフレーズモデルによって生成されるデータの多様性をどう担保するか。知識の偏りなどの懸念がある(例: 世界知識に偏りのあるGPT-3.5を使うと、偏ったデータが生成される恐れ)

モデル性能を上げたいタスクに関連するデータを特に生成することで知識バイアスを生む可能性があり、合成データの品質が高いためなのか、戦略的なトピック選択のためなのかは不透明。

注釈

GPU日:　GPUを1日(24時間)使用することを指す単位。