Federated Learning
連合学習, FLのこと
プライバシーに配慮した機械学習手法で,データを送受信しないのが特徴
従来の中央集権的な手法と比較すると
通常,学習を行うサーバが一つあり,各所に分散されているデータを受信して学習する
FLではデータのある場所で学習し,その結果を集める
データの代わりに学習で得られたパラメータを集める利点は
プライバシーの担保
データを移動しないので,一次情報の漏洩は起こり得ない
妙な書き方をしたのは,パラメータから復元する攻撃があるため
パラメータ自体にも仕掛けを施すか,あるいは通信をセキュアにするなどの工夫が環境次第で必要
他の人に知られたくない,高いプライバシー性を持つデータを学習に使える
プライバシー含む倫理的な問題が機械学習で浮上しており,各国が法規制を進めている
そういった流れを受けて誕生したと記憶している
Federated Learning プライバシー保護下における機械学習にもそういった説明があったはず
通信量の削減
従来は巨大なデータを一箇所に集めるために送信していた
パラメータもそこそこ大きいが,データほどではない
ある程度トラヒックの抑制が期待される
通信量に注力する集約アルゴリズムもある
データサイロの解消
企業やその内部で巨大なデータを持っていて,それを外に出したくないが,それらのデータの特徴を広く活用したいとする
そうした時,FLでデータを持ち出さず,共同でモデルを学習するためにデータを提供すれば,データが単独で存在し,理想的な活用がなされない状態が解消される
共同でシステムを運用する都合上,動機づけや報酬(インセンティブをどうするか)の問題が生じる
データをほぼ提供しないし,学習も行わないのにモデルだけしっかり使う,貢献度の低いフリーライダーなどが考えられる
モデルだけ持ち出そうとする人など,悪意のあるユーザの扱いも問題
利点の方に書いたが,運用で考えられる問題は複数ある
他にも通常の学習に比べて精度が落ちたり,統合用のサーバがあると結局通信量が解決できないのでは,といった完全な分散に向けた考えなどもある
後者はあまり知らないので調べていきたいところ
ざっと見た感じでは,巨大なモデルの学習への適用が今のホットな話題だったと思う
他,参考になりそうなリソース
https://federated.withgoogle.com/
漫画の下にあるリソース一覧が良さげ
僕も読まないといけないね
https://cloud.google.com/discover/what-is-federated-learning