Deep Learning and the Information Bottleneck Principle
概要
よりよい表現学習を行うための情報理論的アプローチ
よりよい$ Xの表現$ Yは,$ p(X, Y)を大きくするような表現で,なおかつ$ Yの予測には関係がないものを省略するようなものである.
$ Xの十分統計量を$ \tilde{X}とすると,
https://gyazo.com/192b4f130ddc5f6f56111454de2144fe
として示すことができる.
入力データに依存しすぎないような特徴量$ Xでかつ,$ Xに関する情報量を持っているような特徴量を抽出する.