記号知識蒸留
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
https://arxiv.org/abs/2110.07178 (2021)
o3-mini-high.icon
本論文は、大規模言語モデル(GPT-3)から常識的知識を自動生成し、以下の3段階で高品質な常識知識グラフと小型かつ高性能な常識モデルを作る新手法「Symbolic Knowledge Distillation」を提案しています。
1. 機械からコーパスへ
GPT-3をFew-shot promptingで用い、ATOMIC形式の常識的事象と推論(例:イベントとその結果)を大量(ATOMIC10x)に生成します。
生成結果は人手作成のATOMIC20よりも量・多様性が高いものの、品質にはばらつきがあります。
2. クリティックによるフィルタリング
人手評価をもとに学習したクリティックモデルを使い、論理的不整合や不自然な表現を持つ生成結果を除外します。
フィルタリングにより、品質を高めつつも十分なデータ量を保持するバランスが取られます。
3. コーパスからモデルへ(知識蒸留)
フィルタリング済みの知識グラフを用いて、小型の常識モデル(COMETDISTIL)を学習。
驚くべきことに、生徒モデルは教師であるGPT-3よりも高い常識推論性能を発揮します。
この手法は、知識蒸留の概念をシンボリックなテキスト生成に拡張し、人間の評価を少量取り入れることで、従来の人手作成の知識グラフを上回る大規模かつ高品質な知識資源の構築と、効率的な常識モデルの獲得を実現している点が特徴です。
以下の論文は、知識獲得や知識グラフ構築の分野で基礎となる手法を示しており、Symbolic Knowledge Distillationに関連して知っておくと有用です。
Hinton et al. (2015)
"Distilling the Knowledge in a Neural Network"
→ 大規模モデルから小型モデルへ知識を移す知識蒸留の基礎手法です。
Sap et al. (2019)
*"ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning"*
→ 常識推論のための知識グラフ構築手法の代表例で、自然言語によるif-thenルールを扱います。
Bosselut et al. (2019)
*"COMET: Commonsense Transformers for Automatic Knowledge Graph Construction"*
→ 自動で常識知識グラフを生成するTransformerベースのアプローチを提案しており、Symbolic Knowledge Distillationの発展形とも位置付けられます。
Petroni et al. (2019)
*"Language Models as Knowledge Bases?"*
→ 言語モデル内部に蓄積された知識を抽出・活用する手法を検証しており、知識獲得の観点から参考になります。
Davison et al. (2019)
*"Commonsense Knowledge Mining from Pretrained Models"*
→ 事前学習済みモデルから常識知識を効果的に抽出する方法を議論しており、自動知識獲得の可能性を示しています。
また、知識グラフ構築全般に関しては、Speer et al. (2017) "ConceptNet 5.5: An Open Multilingual Graph of General Knowledge" も参考になります。
これらの論文は、機械学習や自然言語処理分野での知識獲得の方法論を深く理解するための重要な文献となっています。
nishio.icon
この言及先を取得して要約するところまでやってほしいな
あ、それがDevinによるサーベイか