マルチエージェント系の分散的最適化に基づくコミュニケーション創発に関するサーベイ

Author : 吉田尚人

Journal : 省略

paper URL : 省略

preprint URL : 省略

Date : Apr 2, 2026

Summerized by : 進藤稜真

Tags : コミュニケーション創発マルチエージェント

Abstract

このサーベイでは、個々のエージェントが独立に個体の生存を学習によって獲得する際の、コミュニケーション行動の創発を想定した研究に関してまとめる。生存を目的としたエージェントが複数存在する系において、協調的なコミュニケーション創発は一見自明なように思われるが、実はそうではないことを過去の関連研究を紐解くことで理解できる。自律的なエージェントのコミュニケーション創発の数理は古くは経済学においてNeuman-Morgensternのゲーム理論の拡張から出発し、その後2系統に分かれる。1つはDawkins-Krebsの進化生物学的な動物行動学における信号の役割についての議論を計算機実験に移した進化計算に基づく系統、2つめはFarrell-Rabinのコミュニケーションに対するコストが無視できるとした経済学におけるCheapTalkの議論を計算機科学に展開した系統である。近年のマルチエージェント深層強化学習に基づくコミュニケーション創発は後者に含まれる。本サーベイでは最後に個体の生存にもとづく学習エージェントにおいてコミュニケーション創発が想定しうる状況についてまとめ、将来的な研究領域について議論する。

1. どんなもの？

「個体それぞれが生存という目的を持ちつつコミュニケーションが自然に発生するのか」という問いについて、これまで扱われてきた研究をまとめ、特に以下の観点で言語学習・創発を想定するエージェントの研究をまとめる。

マルチエージェント

コミュニケーションチャンネルの存在

分散的なエージェント

微分不可能なメッセージ：複数エージェント間の計算グラフは切れている、すなわち、Backpropにおいて誤差の逆伝搬はエージェント間で行われない。

個体それぞれの自律的な生存

上記の条件で、コミュニケーションが自然に創発するか？

先に答えを言うと、上記の範囲では否定的な結果が得られている

創発した状況は以下に限定されている

各エージェントが協力的であることが必要な状況

各個体の利益に加えて、メッセージの送信による他者の制御を意図した内発的動機づけ

2. 先行研究と比べてどこがすごい？

独立したエージェント集団の各個体における合理的行動としてのコミュニケーション創発の研究系統

1. Maynard SmithやRichard Dawkinsをはじめとする進化ゲーム理論の観点からのアプローチ

2. 経済学的な観点でのコミュニケーション行動から展開したアプローチ

ゲーム理論をベースにしたコミュニケーション研究はっ厳密に数理的な解析を可能にするものの、それぞれ特定のケースを抽出して議論するものであり、議論可能な範囲は厳しく限定される。

進化生物学的観点からのアプローチ：血縁選択からのコミュニケーション創発

動物行動に対して理論的に解釈を与えようとする数理生物学のアプローチ

マニピュレーション理論(Krebs & Dawkins)：信号を送信者が発することで受け手を「操作(manipulation)」することによる利益を受ける

ハンディキャップ理論：信号に対するコストが信号の信頼性に影響を与えるとする

経済学における signaling game の概念と接続

ハンディギャップ理論の是非は議論されている

以下、進化計算・計算機科学による展開には言語における構文構造の創発や単語の創発などさまざまなものがある(以下に並べておく)が、ここでは「個体のエージェントにおけるコミュニケーション創発」に限定してピックアップする。

Kuc Stells "The synthetic modeling of language origins" https://www.semanticscholar.org/paper/The-synthetic-modeling-of-language-origins-Steels/c5f2f8fdc03dabef7f9ed035663744faa2deeab7

ANGELO CANGELOSI &DOMENICO PARISI, "The Emergence of a 'Language' in an Evolving Population of Neural Networks", https://www.tandfonline.com/doi/abs/10.1080/095400998116512

Luc Steels, et al., Crucial factors in the origins of word-meaning", https://www.semanticscholar.org/paper/Crucial-factors-in-the-origins-of-word-meaning-Steels-Kaplan/74f7d02607e50ed771fcc5392e1967d4f535bf22?sort=is-influential

Cangelosi & Parisi

ニューラルネットワークマルチエージェントが、環境中のキノコ/毒キノコを収集する

listening organism(LO) : 移動可能、信号を受け取るだけ

speaking organism(SO) : 移動不可能、信号を発する

エージェントの近傍8セルの中にいずれかのキノコが存在する場合、それぞれのキノコの情報が10ビットの特徴量とその方向(1次元。0~1に正規化された値)としてエージェントに与えられる。

キノコが遠方にある場合は、エージェントに最も近いキノコの方向だけが与えられ、10ビットの特徴量は全て0

同じ物体に対しても、距離に応じて認識できる情報が異なる状況を表す

https://scrapbox.io/files/69ce032d9ea0767ac86251fc.png

さらに、エージェント(LO)が環境内を移動する際にSOが信号を発する状況を考える。

仮想的にLOと同じセルにSOがいるとして、SOは距離に関わらずキノコの特徴量にアクセスできるとする。

SOはアクセスした情報に基づいて3ビットの信号を発する。これを受け取り、LOは動きを決める。

このエージェント100体の信号の進化を議論した。

エージェントの適応度は、LO(100体のうちの1体)が環境で食用キノコを得た場合は +1, 毒キノコなら -1として、750ステップの間に得た得点。SOは評価対象とならない。

この設定において、進化最適化を通じて、LOとSOの間に通信が成立することを示した。

通信路を遮断した場合と比べて、より高いパフォーマンスを示した。

Mirolli & Parisi

上記の環境をより単純化してもコミュニケーションが安定的に進化し成立する条件を構成的に探索

https://scrapbox.io/files/69ce07db9ea0767ac8625f3c.png

上記の条件では安定していた通信が、進化最適化の方法に依存して不安定化する場合があることを報告。また、Cangelosi & Parisiはなぜエージェント集団に有益なコミュニケーションシステムが共有されるのかについては説明していないことを指摘。

個体に対する淘汰を拡張した、血縁選択に基づく進化最適化手法を導入することで安定的なコミュニケーションの成立を実証。

Di Paolo は血縁選択のみではコミュニケーション創発を説明できない事象があることを、言語創発モデル中の血縁関係に関する分析をもとに主張している。

A little more than kind and less than kin: The unwarranted use of kin selection in spatial models of communication., https://doi.org/10.1007/3-540-48304-7_69

実ロボットにおいても同様の実験系で検証が行われ、コミュニケーションの創発が確認されている

Mitri

赤いライトを持つ複数のトークンと青いライトを持つ移動型小型ロボットを複数台用いて、Cangelosi & Parisiのキノコ-毒キノコ環境に似た実験系を構築して進化アルゴリズムによるコミュニケーション創発を実証

実ロボットを用いた実験系においてもまた、血縁選択の有無などの条件の違いによって有効なコミュニケーション成立によるパフォーマンスの違いを報告している(図7)

エサの種類を他個体に伝達する際に進化的なバリエーションが生じることを実験的に観測(図8)

ロボット環境においても、血縁選択を行わない個体に対する競合的な条件で進化最適化を実行すると、各個体で欺瞞的なコミュニケーションが生じることで相手にエサの場所をわかりにくくし、全体の採餌パフォーマンスが低下することを報告。

https://scrapbox.io/files/69ce099f9ea0767ac8626589.png

総評：進化最適化に基づく方法論

個々のエージェントがどのような動機づけによって信号・コミュニケーションを獲得するかという個体の学習という視点は進化的最適化というアプローチの性質上扱いづらく、限定的

血縁選択を仮定しない競合的な状況においては、協力的な信号は自然に創発することはなく、搾取あるいは欺瞞として妨害として信号経路が利用されてしまうことを複数の実験系が共通して主張

次節の経済学的なエージェントからの展開によりマルチエージェント強化学習へと接続されることで、各個体の学習と主体の中で閉じた動機づけへと議論の解像度が高まることとなる

一方、競合的な状況での強力的なコミュニケーションの"不成立"は、経済学的観点でのコミュニケーション研究でも共通して見られる現象であり、各個体の生存を扱う上で重要な概念となってくる。

3. 技術や手法のキモはどこ？

5. 経済学的観点からのアプローチ：シグナリングゲーム

経済学におけるシグナリング理論：エージェントにとって非対称な情報（不完全情報）が与えられている状況を扱う数理的な理論。異なる個人的な動機づけ(=効用。以後、強化学習との関連から「報酬」)を持つ複数のエージェントがどのようにメッセージを送り、受け取ることで最適な意思決定を議論する

シグナリングゲーム

送信者(Sender, S)は個人的な情報zをもち、それを元にメッセージmを送信する

受信者(Receiver, R)がメッセージを受け取った上で行動aを決定することで、送信者はr_S(z,m,a)、受信者はr_R(m,a)の報酬をそれぞれ受け取る。

例：Spenceの就職市場モデル：複数の意思決定者の信号のやり取りを扱う先駆的な例

https://scrapbox.io/files/69cf78e83caed06dfe63c31f.png

チープトーク

信号の送信に対するコストを無視できる状況でのシグナリングゲーム

ここでコストが無視できるとして想定されているのは「発話」

メッセージmが直接報酬に作用するものではなく、送信者はr_S(z,a)、受信者はr_R(a)の形式で報酬が与えられる

チープトークを導入する状況は自然に想像できる。

例：「囚人のジレンマ」

選択が1回きりの場合は、準最適である「自白」を選択することが合理的であるとされる(not 全体最適 → 社会的ジレンマ)

もし、囚人同士が会話による情報交換が可能だったら社会的ジレンマを解消可能か？→チープトークの導入

ところがそう簡単ではない

送信者が意味のある情報を伝達する状況が起こるためには以下の条件が揃う必要がある

1. 送信者と受信者の利害が対立していない

利害の対立がある場合には有効なコミュニケーションが生じない。進化生物学的観点の例と一致。

2. 送信者が受信者にとってもらいたい行動aは、送信者の私的な情報zに応じて変わる

3. 受信者の取りたい行動aが、送信者の私的な情報zに応じて変わる

5.1 シグナリングゲームに基づくコミュニケーション創発

チープトークにおける経済的合理性に基づくコミュニケーションの成立条件の議論は、

少なくとも複数のエージェントにとって協力が必要

送信者に私的な情報を想定する

ことで、エージェントは意味のあるコミュニケーションが創発することを意味する

→ このような状況を端的に成立させるためには、送信者と受信者の報酬を揃えてしまえば良い。

例：Lewisのシグナリングゲーム (LSG)

送信者が私的な情報zを受け取り、それに基づきメッセージmを送信する。受信者の前提として、zにはアクセスできず、メッセージmから行動aを決定する。これらの一連の流れの後、同じ報酬 r_SR(z, m, a)の値が両者に与えられる。

40 - David Lewis. Convention: A philosophical study. John Wiley & Sons, 2008.

41 - Brian Skyrms. Signals: Evolution, learning, and information. OUP Oxford, 2010

高次元入力の状況や行動・メッセージが複雑・高次元になる場合は学習に基づく行動最適化が有効である。

ゲーム理論と強化学習理論は、期待報酬(効用)最大化の枠組みで統一されており親和性が高い

深層学習・深層強化学習に基づくEmComの文脈でも、言語創発の基礎的な位置付けとしてよく扱われる

48 - Rahma Chaabouni, Eugene Kharitonov, Emmanuel Dupoux, and Marco Baroni. Anti-efficient encoding in emergent communication. Advances in Neural Information Processing Systems, 32, 2019.

49 - Mathieu Rita, Corentin Tallec, Paul Michel, JeanBastien Grill, Olivier Pietquin, Emmanuel Dupoux, and Florian Strub. Emergent communication: Generalization and overfitting in lewis games. Advances in neural information processing systems, 35:1389–1404, 2022.

受信者の行動aを送信者の情報zの復元と解釈する特定の系において、LSGはVAEの一種 β-VAEと等価であることが示されている

50 - Ryo Ueda and Tadahiro Taniguchi. Lewis’s signaling game as beta-vae for natural word lengths and segments. arXiv preprint arXiv:2311.04453, 2023.

https://scrapbox.io/files/69cf790a3caed06dfe63c364.png

また、深層強化学習に基づくコミュニケーション創発では、LSGの状況にさらに付加的な情報を加えた参照ゲーム(referential game)を想定することで、画像入力などを想定した高次元入力系での言語創発が扱われている。

51 - Angeliki Lazaridou, Alexander Peysakhovich, and Marco Baroni. Multi-agent cooperation and the emergence of (natural) language. arXiv preprint arXiv:1612.07182, 2016.

52 - Angeliki Lazaridou, Karl Moritz Hermann, Karl Tuyls, and Stephen Clark. Emergence of linguistic communication from referential games with symbolic and pixel input. In International Conference on Learning Representations, 2018.

53 - Angeliki Lazaridou and Marco Baroni. Emergent multi-agent communication in the deep learning era. arXiv preprint arXiv:2006.02419, 2020.

https://scrapbox.io/files/69cf79e83caed06dfe63c546.png

LSGとそれに関連するEmComを扱った文脈で、深層学習・深層強化学習を適用する状況においてもチープトークの議論は成り立つだろうか？

交渉(negotiation)ゲームという競合的な状況が発生しうるゲームにおいては、個々のエージェントが異なる報酬設定を持つ分散的な行動最適化の状況において、有効なコミュニケーションの創発に失敗することを報告している。

4. どうやって有効だと検証した？

6. 深層強化学習による分散的コミュニケーション創発の展開：逐次社会的ジレンマ

逐次社会的ジレンマ(Sequential Social Dilemma, SSD)はマルチエージェント強化学習の一種であり、ゲーム理論における社会的ジレンマに対してより現実的な以下の観点を加えたものである。

1. ゲームは時間的に展開可能である。

2. 協力と非協力は、決定を決める方策に対するラベルと考える。

3. 協調の度合いは段階的となる可能性がある(完全な協調と非協力の間が存在しうる)

4. 協力または非協力の決定は擬似的に同時に行われると考える(プレイヤーがお互いに何をしようとしているかについてある程度の情報を相互に入手できるため)

5. 世界の状態に対する部分的な情報で決定を下す必要がある。(部分観測性)

シグナリングゲームはゲーム理論の拡張であり、エージェントが環境と相互作用する状況(行動など)は考慮されていない。

SSD自体は社会的ジレンマの拡張であり、それ自体はコミュニケーション創発を扱うものではない。

これらを統合したコミュニケーション創発の研究：

SSDにおいて個別のエージェントがメッセージと共に行動を決定し、エージェント以外の環境のダイナミクスに対して影響を与えつつ相互にコミュニケーション可能な状況を扱う。

60 - JZ Leibo, VF Zambaldi, M Lanctot, J Marecki, and T Graepel. Multi-agent reinforcement learning in sequential social dilemmas. In AAMAS, volume 16, pages 464–473. ACM, 2017.

SSDは社会的ジレンマ同様、強力的な問題設定を仮定するわけではないので、これまで同様進化生物学的、経済学的観点からの知見同様、協力的なコミュニケーションチャネルの活用は自然発生しない。

一方、メッセージmを送信することによる相手の行動aとの相互情報量I(m;a)を学習された他者モデルなどで評価し、内発的動機づけとして学習に加えることにより、分散した学習においても有効なコミュニケーションが観察されることも報告している。

この相互情報量に基づくアプローチは、進化生物学的観点でもあった Dawkins & Krebsの古典的なマニピュレーション理論を連想される。

6.1 SSDにおいて創発したコミュニケーション・メッセージをいかに定量化するか？

Lewisのシグナリングゲームをはじめとする協力的な状況を想定した場合は、学習に伴う系のパフォーマンスの改善から、コミュニケーションにおけるメッセージが評価できる。

SSDコミュニケーションを想定した実験系では、通信路を用いたコミュニケーションを評価することは難しい。

環境の性質によっては、通信路を使わないコミュニケーションも可能のため。

MARLにおけるコミュニケーション創発の端的な指標は、通信路の遮断や通信路を含まない学習結果と比較すること。

6.1.1 Positive Signaling / Positive Listening の観点からみた創発コミュニケーションの評価

Positive Signaling : エージェントがメッセージを生成する際、メッセージがそのエージェントが受け取った観測や選択する行動と何らかの相関があることを意味する。

ではない例：犬のネームタグ。人間に対しては信号になるが、犬自身の観測や行動を反映したものではない。

https://scrapbox.io/files/69dc950f3caed06dfe7d4eb4.png

SCは相互情報量であり、エントロピー H(・)を使って、SC = H(a) - H(a|m) で表せることから、メッセージを知ることでそのエージェントの将来の行動に対する不確定性がどの程度減少するかで評価している。

またSCの特性として、エージェントの行動選択がメッセージと全く関係がない決定論的な方策である場合には、H(a|m) ≒ H(a) となりSCはゼロとなる。このような性質をもって、指標として自然であると主張。

Context Independence: Positive Signaling を定量化する別の指標。

エージェントの置かれているコンテクストcとメッセージmとのアライメントに注目し、以下で定式化

https://scrapbox.io/files/69dcac563caed06dfe7d884d.png

https://scrapbox.io/files/69dcac983caed06dfe7d88fc.png

解説 by Gemini

https://scrapbox.io/files/69dcadef3caed06dfe7d8c47.png

https://scrapbox.io/files/69dcae143caed06dfe7d8ca3.png

Positive Listening : メッセージを受け取ったエージェントがその内部の信念やその後の行動を変更することを意味する。

ではない例：セミの鳴き声。人間に音として観測されるが、人間の日常生活の行動を変えるものではない。

Positive Listeningの検出 (評価方法)

causal influence of communication (CIC)

Agent 1 と Agent 2 の間で評価し、Agent 2 のメッセージ m_2 を受け取ることでのAgent 1 の行動a_1が影響を受ける度合いをこれらの相互情報量の時間平均へ評価する。

https://scrapbox.io/files/69e986aafc4464f697c2cdf5.png

https://scrapbox.io/files/69e9887cfc4464f697c2d45f.png

進藤稜真.icon 実は相互情報量はDKLの特殊系 (「同時分布 p(x,y)」と「独立と仮定した場合の分布 p(x)p(y)」のDKLが相互情報量)

https://scrapbox.io/files/69e987e8fc4464f697c2d2d5.png

Positive Signaling は必ずしも Positive Listening を意味しない

エージェントが状況に応じて信号を出しているように見えても、実際は他のエージェントはシグナルの影響を受けておらず、コミュニケーションは実は成立していないような状況。

エージェントのメッセージにコストがかからない(チープトークなど)場合、エージェント同士でシグナルを無視し合い、それが環境に影響を与えないのであれば、無意味なメッセージの送信がネットワークにノイズのように残り続けることがあるから。

例：歩くときに服が擦れる音

議論と展望

コミュニケーションにかかる直接のコストが無視できる場合、かつ、各個体が協力的な状況に置かれない場合、進化生物的・経済学的な両方の観点で意味のあるコミュニケーションが創発しない。

生存を目指すエージェントの観点からは、大きく2つの状況がありそう。

1. 食物などのリソースが限られた状態で、騙し合いが起こり、意味のあるコミュニケーションが成立しない。

2. 十分にリソースがある場合は、各個体が各自で問題を解決できるためコミュニケーションが成立しない。

自律的なコミュニケーションが創発しうる状況は以下の二つと考えられる。

1. エージェント自身が自律して生存する方法がなく、caregiverなどを操作する方法を学習する。

infant-caregiver のダイナミクスは近年、脳の内受容処理の観点からも議論されており (71)、また認知発達ロボティクスにおいても共同注意の観点で両者の学習ダイナミクスの存在が指摘されている(72)。

71. Maria Laura Filippetti. Being in tune with your body: The emergence of interoceptive processing through caregiver–infant feeding interactions. Child Development Perspectives, 15(3):182–188, 2021.

72. Yukie Nagai, Minoru Asada, and Koh Hosoda. Learning for joint attention helped by functional development. Advanced Robotics, 20(10):1165–1181, 2006.

caregiver はコミュニケーションのプロトコルと運動能力が確立した存在であり、いっぽうで幼児は運動能力的に未熟でこれからコミュニケーションを学んでいくという非対称性がある。

運動能力に限界のあるエージェントとcaregiver にエージェントの保護を想定した場合、エージェントは caregiver を環境のダイナミクスの一部とみなし、メッセージ送信を行動と見なすことで Krebs & Dawkins の議論のような”操作”的なコミュニケーションを成立させる可能性がある。

caregiverの設計が問題になる。

LLMを使えばどうだろうか？

進藤稜真.icon caregiver & childは自身の研究に関連しそう。

進藤稜真.icon たにちゅーさんから紹介されたICDLの論文↓。

https://ieeexplore.ieee.org/document/11204452

進藤稜真.icon CPC Camp で田中さんが内受容の話もしていた。

2. エージェントは生存の他に、コミュニケーション創発能力を有しうる内発的な動機づけを持つ。

SSDの状況に陥りやすい状況の生存エージェントに対して、個別に自律的な内発的動機づけを想定することで、コミュニケーション創発を目指すアプローチ。

Jaquesらのアプローチは、自らが送ったメッセージによって他のエージェントの行動が影響を受ける positive listening に対して、相互情報量を内発的動機づけとして加えることで、コミュニケーション創発を報告している。

ここでは、他のエージェントの行動にアクセスできるという仮定があったが、これは操作能力と言えると同時に、相互情報量で定義される内発的動機づけの一種である empowermentとして解釈できるかもしれない。

https://scrapbox.io/files/69e98dfffc4464f697c2e50e.png