分散する知、協働するモデル──連合学習とコモンズの再編成
はじめに
「コモンズ」(共有資源)とは、本来は特定のコミュニティが共同で管理する森林・漁場などの資源を指す概念ですが、現代では知識や文化資源にも適用されています。AI(人工知能)はインターネット上の膨大なデータという「デジタル・コモンズ」に依存して発展してきました。一方で、AIの発展はそのコモンズに新たな緊張関係をもたらしています。生成AIは公開データや公共インフラを利用していながら、学習に使われたコミュニティへ十分な価値還元を行っていないとの指摘があります。また、大規模モデルの台頭によって文化的多様性や知的財産の扱いに課題も生じています。本稿では、アート、情報学、社会学、文化政策の観点から、AI活用とコモンズ理論の交差を批判的に検討します。世界各地の事例(欧米、東アジア、グローバルサウスを含む)に基づき、以下のテーマを順に論じます。
連合学習と分散型データガバナンスの応用事例
膨大なデータを扱うAI開発においては、連合学習(Federated Learning)や分散型データガバナンスの手法が注目されています。連合学習とは、データを一箇所に集約せず各所に留めたまま、複数の端末・機関が共同でAIモデルを訓練するアプローチです。従来はモデル訓練のために全てのデータをクラウド等に集める必要がありましたが、連合学習では「モデルをデータのもとに派遣し、学習したパラメータのみ集約する」仕組みにより、プライバシーを保護しつつ協調的な学習が可能になります。この方法は、特に個人情報を含むデータ(医療記録やスマートフォン上のユーザーデータなど)を扱う際に、データ漏洩リスクを減らす画期的な技術として広がっています。
具体的な応用例として、GoogleはAndroidスマートフォンの日本語入力システムGboardに連合学習を導入し、ユーザの端末上で学習を行っています。ユーザの入力データは端末外に直接共有されず、更新された予測モデルのみがサーバに送られて集約されるため、個々人の入力内容を漏らすことなく変換精度を改善しています。これは「自分のデータが見られないまま他者と共同でAIを育てる」仕組みとも言え、プライバシーと利便性の両立を図るものです。
また、業界を越えたデータ共有の壁を連合学習で克服した例もあります。EUのMELLODDYプロジェクトでは、競合する製薬企業10社がそれぞれの蓄積した化合物データを持ち寄り、しかし生データは共有せずに連合学習で創薬の機械学習モデルを共同開発しました。この試みは製薬業界初の大規模連合学習の実証となり、各社のデータを合わせたモデルは個社ごとのモデルより精度向上を達成しています。他にも、COVID-19下では世界20機関の医療データで連合学習を行い、患者の酸素投与ニーズを高精度に予測するモデル「EXAM」を短期間で構築した事例があります。EXAMは各病院のデータを出さずに協調学習することで、単独施設のモデルと比べAUC(精度指標)を平均16%も改善し、汎用性も38%向上しました。このように、センシティブなデータを共有しにくい医療分野でも、連合学習によってデータコモンズ的な共同研究が可能になったのです。
連合学習の背後には、データガバナンスにおける新たなアプローチがあります。従来、データは独占的に保有・管理される傾向が強く、ビッグテック企業が膨大なデータを囲い込む「データ集中」が問題視されてきました。一方、連合学習やデータ信託(Data Trust)などの発想は、データを一箇所に集めなくても共同利用できる仕組みを追求します。例えば、英国やカナダでは市民や組織が信頼できる第三者機関にデータ管理を委ねつつ、適切なルールのもとで研究や公益目的にデータを活用する試み(データトラスト)が進められています。これは中央集権型のプラットフォームに頼らずに、分散的・協調的にデータを管理することで、より多様な主体がAI時代の恩恵を享受できるようにする動きです。
オープンソースコミュニティもこの分野で重要な役割を果たしています。非営利団体OpenMinedは、誰でも連合学習や差分プライバシーといった技術を実装できるライブラリ(PySyftなど)を開発し、「プライバシー保護AI」の普及を図っています。また、分散型AIの試みとしては、ブロックチェーン上でAIモデルを共有・取引するSingularityNETや、分散ノードで機械学習タスクを実行するOcean Protocolなどのプロジェクトも登場しました。これらはまだ実験的段階ですが、将来的には中央集権的なクラウドに代わるAIインフラの分散化につながる可能性があります。
以上のような連合学習・分散ガバナンスの事例から浮かび上がるのは、「データと計算資源をコモンズとして捉える視点」の重要性です。ソニーCSLの北野宏明は「データと計算機リソースをグローバル・コモンズとして捉え、多様で公正・透明なデータセットを皆で共有すべき」と指摘しています。これは、一部の企業や大国だけがAIの原料(データ)と燃料(計算資源)を独占するのではなく、社会全体でこれらを共同管理・活用する仕組みが必要だという提言です。連合学習はその技術的手段の一つであり、ルール策定やインフラ整備など制度面の革新と組み合わせることで、AI時代の新たなコモンズを創出していく鍵になると考えられます。
コモンズ理論とAIによる知識生成の交差
共有資源を持続的に管理するための条件について研究した政治経済学者エリノア・オストロムは、「8つの設計原則」を提唱しました。それらは「境界の明確化」「ルールの適合」「参加型の意志決定」「監視と制裁の仕組み」「紛争解決法」「コミュニティの自治承認」「複数階層の統治」などから成り、世界各地の伝統的コモンズの実例に裏打ちされた知見です。このオストロムの理論は、物理的資源だけでなく知識・情報の共有にも応用できることが近年認識されてきました。実際、オストロムとシャーロット・ヘスは「知識のコモンズ」という概念を提唱し、図書館や学術情報、デジタルデータの共同管理を分析する枠組みを作り上げました。オープンソースソフトウェアやWikipediaといったデジタル時代の共有知も、オストロムの原則を当てはめてみると持続的運営の秘訣が見えてきます。
AIによる知識生成は、まさにこのデジタル・コモンズ上で行われています。大量のテキストや画像から学ぶ生成AIモデル(基盤モデル)は、インターネットという共有知の宝庫を糧にして進化してきました。しかし、その過程で浮上したのが、先述の「相互主義の欠如」という問題です。多くの人々が善意で公開した写真や文章が、巨大AIモデルに吸収され商業利用されても、貢献者にクレジット(名前)も利益も戻らない状況に、人々は疑問を感じ始めています。例えば誰も報酬目当てで投稿したわけではないフリーの写真が、AI企業にとっては金脈となり得るのに、そのことでサーバ負荷やユーザ体験の悪化だけがコミュニティに降りかかるなら、人々は共有に協力しなくなるでしょう。これはコモンズの維持にとって危機的です。
この状況に対し、Creative Commons財団は「AI時代の相互主義」を提唱し、AI開発者がコモンズから得た利益を公正に還元する仕組みを模索すべきだと訴えています。具体的には、データ提供者(コミュニティ)とAIモデル開発者の間に双方向の利益関係を築くことが重要とされます。データ保有者が自分のデータをAI学習に使われるか選択・交渉できる仕組み、貢献者への適切なクレジット付与、オープンなインフラ支援などが、相互主義を確立するための方策として挙げられています。CCの現CEOアナ・トゥマドッティルは「コモンズから不均衡に利益を得る者は、コミュニティに文脈に応じた形で還元すべきだ」と述べ、AIエコシステムにその考え方を組み込む必要性を強調しています。
一方で、AIコミュニティ内部からもオープンサイエンスの気運が高まりました。その象徴が、2022年に発表された大規模言語モデルBLOOMです。BLOOMはフランスの研究機関主導で発足したBigScienceプロジェクトの成果であり、60か国以上・1000名超の研究者が参加して、46言語対応のオープンなAIモデルを共同で訓練したものです。BLOOMの開発過程は透明かつ誰でも追試可能な形で公開され、モデルも商用利用可能なライセンスで一般提供されました。開発陣の一人テヴァン・ル・スコーは「BLOOMは最先端AIモデルを産業界の秘密主義ではなく研究コミュニティの公開の場で訓練・公開できることを示した」と述べています。この試みは、AI研究を公共財(パブリックグッド)として推進しようとする動きの画期となりました。以後も、大規模画像データセットLAION(5億枚超の画像リンク集)を有志が構築して公開し生成AIに活用するなど、民間主導の「AIコモンズ」構築も活発化しています。ただしLAIONの場合、後述するように著作権物の無断収集や不適切コンテンツの含有が問題視されるなど、公開ゆえの課題も浮き彫りになっています。
以上のように、コモンズ理論の知見はAIによる知識生産に多くの示唆を与えています。オストロム以来の教訓は「共有資源も適切なルールと参加型の統治によって持続可能に管理できる」という点でした。これはデータやAIモデルという現代の共有資源にも当てはまります。実際、Mozilla財団の有識者たちはオストロムの原則をデータ共有に応用する枠組みを提案し、データコモンズのガバナンス設計に役立てようとしています。AI開発を特定企業の独占やブラックボックスではなく、オープンで参加型・説明責任あるものへと変えていくには、コモンズ的な視点が不可欠でしょう。つまり、「AIを公共の知的インフラ」とみなし、その恩恵と責任を社会全体でシェアする道を探ることが、今後の課題となっているのです。
現在の課題と未来への展望
以上の実践と理論の交差から見えてきたのは、AIとコモンズの関係における複合的な課題です。ここでは文化的多様性の保護、倫理上の問題、技術的不均衡、権利管理の4点に整理して論じ、あわせてそれらへの対応策と未来への展望を考察します。
• 文化的多様性の懸念: 世界中のデータを学習するはずのAIが、かえって画一化を促す危険が指摘されています。大規模モデルは主要言語や多数派の文化に偏りがちで、訓練データの中で少数言語やマイナー文化が十分に表現されていなければ、AIのアウトプットも偏ったものになります。例えば生成系AIの画像は西洋中心的な美的基準に寄ってしまい、非西洋の意匠が再現されにくいといった報告があります。また、アルゴリズムが過去データの傾向を増幅することで、文化表現の多様な可能性が圧縮される(アルゴリズム的同質化)懸念もあります。国連の専門家報告書も「AIが文化的多様性を脅かし得る」として、政策的介入の必要性を訴えています。この課題に対しては、訓練データにおけるマイノリティの声の積極的収集や、各文化圏ごとのコミュニティ主導のAI開発が解決策となりえます。実際、アフリカではMasakhaneという分散型プロジェクトで数十のアフリカ言語の機械翻訳モデルを共同開発し、グローバル企業が対応しない言語資源をコミュニティ自ら補っています。日本でも少子化で消滅の危機にある方言・少数言語の音声データを集め、AIで保存・可視化する試みが始まっています。将来的には各国・各地域の文化機関や創作者がAI開発に主体的に関与し、多言語・多文化に対応したAIを公共財として構築することが望まれます。その際、国際協調により南北格差の是正や文化多様性保全のための基金(例えばユネスコによる文化AI基金)を設けることも検討すべきでしょう。
• 倫理・社会的影響: AIの発展は倫理上の様々な問題も浮上させています。偏見や差別の助長、誤情報の拡散、監視社会の強化など、AIの負の側面はコモンズの観点からも無視できません。特にバイアスの問題は深刻で、AIは学習データ中の歴史的不公正をそのまま学んでしまう恐れがあります。先述の通り、訓練データが偏っていればAIの出力も偏見を内包し、結果として社会的弱者や少数者の声をかき消してしまう危険があります。このような「知識コモンズの劣化」を防ぐには、AIモデルの透明性と説明責任(アカウンタビリティ)を高め、第三者が検証・監督できるようにする必要があります。欧州連合は世界に先駆けて包括的なAI規制案(AI法)を策定しつつあり、高リスクAIには訓練データの開示を義務づける条項を盛り込みました。またG7広島プロセスの国際コードでは、AI開発者に対しモデルのバイアスやリスク評価を公開報告するよう求めています。今後、アルゴリズムの透明性と監査制度が整えば、AIのネガティブな影響を社会全体でチェックし、より倫理的な方向へと軌道修正していけるでしょう。加えて、AIが人間の意思決定に与える影響への教育(メディア・情報リテラシー向上)も、市民社会の耐性を高める上で重要です。
• 技術的不均衡(AI格差): 現在のAI開発は巨額の資金と計算資源を持つ一部のプレイヤー(米国のGAFAや中国のBATなど)に集中しています。巨大言語モデルの訓練には数百万ドル規模のコストがかかり、研究者個人や小国政府には手が届かないのが現状です。この計算資源の偏在は、新たなデジタル格差として問題視されます。グローバルサウスの国々や小規模企業・団体は高度なAIモデルを開発・利用する上で不利な立場に置かれ、AIの恩恵を均等に享受できません。さらに、英語や中国語でない情報はAI業界の注目が少なく、そうした領域のデータ整備やモデル開発が遅れる傾向もあります。この格差に対処するためには、公共部門や大学によるAI基盤整備が鍵となります。欧州は「デジタル主権」の旗印の下、オープンな欧州産AI基盤モデルの開発に投資を始めています。また、日本でも経産省がスーパーコンピュータ「富岳」を活用した日本語大型モデルの構築を支援するなど、国主導の取り組みが見られます。さらに民間でも前述のBigScienceのような国際協働プロジェクトが増えれば、技術力・資源の異なる組織が力を合わせてAIを開発し、成果を共有することで不均衡を是正できます。ユネスコ報告書は、グローバルサウス諸国が連帯してデジタルコモンズのガバナンスモデルを交換・強化し、北側への過度な依存を避けるべきと提言しています。具体策としては、国際的な計算資源の共同基金を創設し、研究機関やNGOが自由に使える計算インフラを提供する案などが考えられます。将来的に、「AIの民主化」を進めるため、ハードウェアレベルからオープンで参加型のエコシステム(例えば各国の余剰計算資源を結んだ分散スーパーコンピュータ網)の構築も展望されます。
• 権利管理と法制度: AIが既存の知的財産制度やデータ保護規制にもたらす挑戦は大きく、現在進行形の課題です。生成AIは訓練段階で大量の著作物を解析しますが、各国の著作権法はこの行為を明確に想定しておらず、法的グレーゾーンとなっています。例えばStable Diffusionの開発元であるStability AI社は、インターネット上の画像を無断収集したLAIONデータセットでモデルを訓練しました。このことに対し、大手ストックフォト企業のGetty Imagesは「自社の数百万点の画像が無断で学習に使われ権利侵害だ」として提訴しています。2025年11月、イギリス高等法院はGettyの主要な著作権侵害の訴えを退けましたが、その理由は「AIモデルは訓練データをそのまま保存・再生産しているわけではない」という技術的なものでした。判決は著作権法の抜け穴を浮き彫りにし、Getty側も「現行法ではクリエイターの権利が守りきれない」として透明性ルールなど新たな制度整備を訴えています。同様の訴訟は米国や他の国々でも相次いでおり、AIに対する著作権の適用範囲やデータ使用の許諾方法を巡って法的な不確実性が高まっています。
データ提供者の権利を守りつつイノベーションも促進するため、いくつかのアプローチが議論されています。一つはライセンスや契約による調整です。例えばCreative Commonsは「非営利目的に限る(NC)」等の条件付きで作品を共有するライセンスを提供していますが、生成AIの学習が営利利用かどうか判別しにくい問題があります。そこで新たに「AI学習利用可否」を示すライセンス属性の提案もあります。また、アーティスト側では自分の画風が無断模倣されることに対抗し、ウェブ上の画像をAI訓練からブロックするツール(例:グレーズ)を開発する動きもあります。技術的手段としては、メタデータにクリエイターの意図や利用条件を埋め込むことも考えられます。ユネスコは「デジタル文化財に権利者の同意や条件を示すメタデータを付与し、信頼できるオープンリポジトリで管理する」ことを提言しています。さらに、AIモデルの出力物(画像や文章)が訓練データ由来の著作物にどの程度依存するかを解析する技術も進んでおり、将来はモデル出力に対し訓練データ提供者へ報酬を按分する制度(データ提供を一種の労働と見立てた報酬制度)も構想されています。
グローバルサウスや先住民の視点からは、単なるオープン化ではなくデータ主権の確立が重視されています。ニュージーランドの先住民マオリの放送局Te Hiku Mediaは30年分のマオリ語音声データを独自にデジタル化し、AIで音声認識モデルを構築しました。彼らは外部企業からデータ提供の打診を受けても断固拒否し、「言語データは我々の最後のフロンティアであり、かつて土地を奪われたようにデータを奪われるわけにはいかない」と表明しています。Te Hikuは独自のデータライセンスを定め、共同研究の場合でも「成果がマオリの人々に利益をもたらすこと」を厳格に条件付けました。この事例は、単にデータをコモンズとして開放するだけでは弱い立場のコミュニティが再搾取されかねないことを示しています。重要なのは、コミュニティ自身がコモンズのルール作りに参加し、主体的に資源をコントロールすることです。今後、先住民やローカルコミュニティが自らの文化データを守りつつAI時代に活用するため、各地でコミュニティ主導型のデータ共有モデル(例えば先住民データ主権を尊重するライセンスやデータトラスト)がさらに発展していくでしょう。それは同時に、グローバルなデータコモンズを真に包摂的で公正なものへと作り変える力にもなり得ます。
コモンズの未来に向けて
以上の課題に対応し、AIとコモンズを両立させていくために、研究者や政策立案者から様々な提言がなされています。その中核にあるのは、「協調と分配の精神をテクノロジーに組み込む」という発想です。具体的な将来像として、以下のような方策が考えられます。
• データ貢献への還元とインセンティブ付け: 生成AI開発者がコモンズから得た利益をクリエイターやデータ提供コミュニティに還元する仕組みを設ける。例えば収益の一部を公共財基金に拠出したり、モデルの訓練に使われたデータ元にクレジットを表示するなど、貢献者が報われるエコシステムを作る。
• 共同統治モデルの導入: オストロムの設計原則にならい、AI開発・データ共有のルールをステークホルダーが共同で決める枠組みを設計する。データコモンズに参加するメンバーシップ制や評議会を設け、監視とルール改訂を継続的に行う。
• オープンインフラへの公共投資: オープンソースのAIツール、公共データセット、分散型計算インフラなど共有基盤に対し、政府や国際機関が資金提供し長期的に維持する。強固なオープンインフラは民間主導のAI開発集中に対する健全な代替となりうる。
• 地域・コミュニティ主導のAI促進: 各国・各地域の言語や文化に根ざしたAI研究を奨励し、グローバル企業に依存しない形でコミュニティがAIを開発・利用できるよう支援する。南半球同士の知見共有や連帯も進め、データ収奪に対抗する技術や制度を共同で開発。
• 法制度のアップデート: 著作権法やプライバシー法制を現代のAI環境に即したものに見直し、透明性義務や公正な利用条件を明文化する。訓練データの適法な利用を明確化しつつ、権利者不明資料の利活用やテキスト・データマイニング例外の整備も進める。
最後に強調すべきは、AIの未来を人間の側がどう位置づけるかという価値観の問題です。ユネスコの有識者グループは「今こそAIを文化的多様性の増幅装置とするか、周縁化された声を沈黙させる装置とするかの分かれ道にある」と警鐘を鳴らします。テクノロジーはあくまで人間社会の道具であり、その設計と運用に社会的な選択が介在します。コモンズの視点は、AIを一部の者の利益でなく人類全体の共有資産とみなし、その恩恵を公平にし、弊害を共に乗り越えるための協調を促すものです。アートの領域では、クリエイターと技術者・観客が協働してAI時代の新しい創造環境を築こうとしています。情報学や政策の領域でも、オープンで包摂的なAIガバナンスの模索が始まりました。こうしたマルチステークホルダーの取り組み自体が「コモニング(共同管理)の実践」であり、持続可能なAI社会への道筋を示しています。
おわりに
AIとコモンズの交差領域は、新たな知の地平を拓くと同時に、多くの課題を孕む複雑なフロンティアです。本稿ではアートや文化資源の現場から連合学習・データガバナンス、理論的視座、そして社会的課題までを横断的に考察しました。生成AIの急速な進化は文化・社会にもインパクトを与えていますが、その方向性を決めるのは私たち人間の選択です。エリノア・オストロムの示したコミュニティの知恵と創意工夫は、デジタル時代においても貴重な指針となるでしょう。コモンズ理論から学びつつ、グローバルな視野でローカルな多様性を尊重し、AIを「みんなのもの」として育んでいくことが求められています。それは一朝一夕で実現するものではありませんが、世界各地の実践と連帯が既にその第一歩を踏み出しています。AI時代のコモンズ構築という壮大な実験は始まったばかりです。その行方を見極め、より良い未来をデザインするために、批判的な視点と創造的な対話を深めていくことが、今まさに必要とされています。