蒸留(distillation)
より直接的なものに、ヒントンの提案した「蒸留(distillation)」という技術がある。大きなネットワークにより学習されたモデルを教師モデルとし、小さなネットワークを生徒モデルとして、生徒モデルの出力を教師モデルに近づけるように学習させる[Hinton, Vinyals, and Dean, 2015]。もとの教師ネットワークよりもサイズが小さいネットワークで同等の性能を出すことができる。これ自体は不思議な技術であるが、そもそも学習というのが複雑な計算過程を省略し、簡便な計算に置き換えるものだと考えれば、納得できる。