コミュニケーションの数理モデル

from 人間化計画

問題設定

相手の内面状態 $ s \in \mathcal{S} は直接観測できない隠れ変数。観測者はマルチチャンネルの観測 $ \mathbf{o} = (w, f, t, b) を受け取る。

$ w：words（発話内容）——「大丈夫だよ」「怒ってないよ」「好きにしていいよ」

$ f：facial expression（表情）——目が泳ぐ、口元が引きつる、目を合わせない

$ t：tone of voice（声のトーン）——声が小さくなる、早口になる、語尾が下がる

$ b：behavior（行動・姿勢）——腕を組む、スマホを触り始める、物理的に距離を取る

各チャンネルはノイジーで、$ s の不完全な射影：

$ o_i = g_i(s) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(\mu_i, \sigma_i^2)

チャンネルの信頼度は固定値ではない

初期モデルでは $ \sigma_f, \sigma_t < \sigma_w（非言語チャンネルの方が信頼度が高い）と仮定していたが、これは過度に単純化されていた。実際には：

$ \sigma_i は相手依存の変数。各チャンネルのノイズ特性は相手 $ A によって大きく異なる。

table:_

相手のタイプ $ \sigma_w^A $ \sigma_f^A $ \sigma_t^A 説明

感情が表情に出やすい人中〜大小小 $ f, t が信頼できる。「怒ってない」と言いながら明らかに顔が怒っている

社交的な笑顔が自動化された人中大（バイアスあり）中 $ f に常に正方向のバイアスが乗っている。いつも笑顔だが内面と乖離

言語化能力が高い人小 — — $ w が最も信頼できる。内面を正確に言語化してくれる

日本文化的に感情抑制が強い人中〜大大中全チャンネルがノイジー。$ w は建前、$ f は抑制されている

俳優・ポーカープレイヤー大大大全チャンネルが意識的に操作可能

$ \mu_w は非ゼロになりうる（系統誤差）。人間は $ w を意図的に操作できるため、$ \epsilon_w にバイアスが乗る。

例：本当は傷ついている（$ s = \text{hurt}）のに「大丈夫」（$ w = \text{fine}）と言う。ただし、$ \mu_f も非ゼロになりうる（社交的笑顔、文化的抑制）。

重要な帰結： fine-tuning data $ \mathcal{D}_A が溜まるまでは、$ \sigma_i^A 自体が未知。初対面で $ f, t が $ w より信頼できるかどうかは、事前にはわからない。

推定問題

ベイズ推定で $ s の事後分布を求める：

$ P(s \mid \mathbf{o}) = \frac{P(\mathbf{o} \mid s) , P(s)}{P(\mathbf{o})}

$ P(s)：事前分布。「人間はこういう内面状態を取りうる」という分布

例えば「友達の成功を聞いたとき、嬉しさと嫉妬が同時に存在しうる」「好きな相手に冷たくしてしまうことがある」「怒りの裏に寂しさがある」といったパターンの集合。これが豊富なほど、多様な $ s に対して非ゼロの確率を割り当てられる。

美容師が新規客の事前分布がわからないので初回は学習に徹すると言っている動画

$ P(\mathbf{o} \mid s)：尤度。各チャンネルの信頼度に応じた重み付き尤度：

$ P(\mathbf{o} \mid s) = \prod_i P(o_i \mid s)^{\alpha_i}

$ \alpha_i は各チャンネルの信頼度重み。$ \sigma_i^A が小さいほど $ \alpha_i が大きくなる。$ \alpha_i は相手別・状況別に動的に調整される。普通の人はこの調整を無意識にやっている。

具体例：相手が $ s = \text{怒っている} とき

table:_

チャンネル典型的な出力信頼度（相手依存）

$ w 「別に怒ってないよ」相手による。言語化能力が高い人なら $ w を信じてよい場合もある

$ f 眉間にしわ、口が結ばれている相手による。感情が顔に出やすい人なら高い

$ t 声が低く、短い返答比較的多くの人で信頼度が高い（声の制御は表情より難しい傾向）

$ b こちらを見ない、返信が遅い時間スケールが長いため信頼度が高いことが多い

Fine-tuning（個人別キャリブレーション）

特定の相手 $ A との会話履歴 $ \mathcal{D}_A = \{(\mathbf{o}^{(k)}, s^{(k)})\}_{k=1}^{N} が蓄積されると、二つのものが同時に更新される：

1. 事前分布の個人別更新 $ P_A(s)：この人はどういう内面状態を取りやすいか

2. チャンネル信頼度の個人別推定 $ \sigma_i^A：この人のどのチャンネルが信頼できるか

$ P_A(s \mid \mathbf{o}) \propto \prod_i P(o_i \mid s)^{\alpha_i^A} \cdot P_A(s)

具体例：

「精密なエンジニア型」の同僚（$ N=100）

長年の付き合いで、この人は感情を言葉（w）に乗せる際に、極めて正確な語彙を選択することがわかっている。

特徴: 言葉に裏表がなく、形容詞の使い分けまで厳密。

推定パラメータ: $ \sigma_w が極小（$ \alpha_w が最大）。

具体例:相手が「その案には懸念があります」と言った。この時、表情（f）が少し硬くても、それは怒りではなく「論理的な検討」という s を示している。

結論: $ w だけを信じれば正解に辿り着ける。非言語情報は補足（または無視）で良い

「社交的プロトコル型」の同僚（$ N=30）

常に笑顔のマスク（f）を被り、言葉（w）も常にポジティブに調整されている。

特徴: 全ての w が「いいですね！」「了解です！」に圧縮されている。推定パラメータ: $ \sigma_w と $ \sigma_f が大きい。バイアス（$ \mu_f）が常に正方向に掛かっている。

具体例:相手が「いいですね、やりましょう！」（w）と満面の笑み（f）で言った。しかし、声（t）がわずかに低く、その後の返信（b）が2日遅れた。

結論: w と f は信頼度が低い（$ \alpha_w, $ \alpha_f が小さい）ため、行動（b）とトーン（t）の重みを上げて推定する。「実はこの人は乗り気ではない（$ s = \text{嫌々}）」という真の内面に辿り着く。

初対面の相手について $ N = 0 → $ \sigma_i^A 自体が未知。全チャンネルの信頼度が不明。

$ N が大きいほど推定精度が上がる。「長い付き合いで信頼を築く」スタイルは、$ \sigma_i^A のキャリブレーションに十分な $ N を必要とするアーキテクチャの仕様。

ミスマッチ検知

チャンネル間の整合性をKullback-Leibler divergenceで測る：

$ D_{ij} = D_{\text{KL}}\bigl(P(s \mid o_i) ,|, P(s \mid o_j)\bigr)

$ D_{ij} が閾値 $ \tau を超えたとき、不一致フラグが立つ。

ミスマッチ検知の価値は、$ f, t が正確かどうかに依存しない。$ f, t から $ s を精密に推定できなくても、$ w と $ f, t の矛盾を検知すること自体が有効。矛盾の存在 = 「$ w をそのまま信じてはいけない」というメタ情報。

具体例：

強い不一致（$ D_{wt} > \tau）：「楽しいね」（$ w）と言っているが、声が明らかに沈んでいる（$ t）。→ $ t から $ s を正確に推定できなくても、「$ w の『楽しい』は額面通りではない」ことはわかる。次の行動：$ w の信頼度を下げ、追加情報を取りに行く（「疲れてない？」と聞く、など）

不一致なし：「嬉しい！」（$ w）と言っていて、声のトーンも高い（$ t）、笑顔（$ f）。→ 全チャンネル整合。$ w を信じてよい確信度が上がる。

微妙な不一致：「いいよ、行こう」（$ w）だが声のテンションがやや低い（$ t）。→ 閾値付近。「本当に大丈夫？別の日でもいいよ」と確認を入れる。

$ b チャンネルでの時間差不一致：友人が「全然気にしてないよ」（$ w）と言ったが、その後の連絡頻度が下がる（$ b）。→ $ b は時間スケールが長い分だけ、リアルタイムの $ f, t が読めなくても検知できる。

行動選択と投機的実行

推定した $ P(s \mid \mathbf{o}) に基づいて、行動 $ a を選択する。効用関数 $ U(a, s) を定義して：

$ a^* = \arg\max_a , \mathbb{E}_{s \sim P(s \mid \mathbf{o})}[U(a, s)]

投機的実行は、$ P(s \mid \mathbf{o}) のモード付近で複数の $ s の候補に対して $ a^* を事前計算しておくこと。

具体例：友人が仕事の愚痴を言っている場面。

$ P(s \mid \mathbf{o}) が二つのモードを持つとする：

$ s_1：解決策が欲しい（確率 0.3）

$ s_2：ただ聞いてほしい（確率 0.7）

投機的実行として両方に対応する発話を用意する：

$ a_1（$ s_1 用）：「こうしたらどう？」

$ a_2（$ s_2 用）：「それはきついね」

期待効用を計算すると、$ a_2 の方が期待値が高いのでまず共感から入る。相手が「どうすればいいと思う？」と聞いてきたら $ s_1 に遷移したと判断して $ a_1 に切り替える。

普通の人はこれを瞬時に、無意識にやっている。

故障箇所の診断

故障1：事前分布 $ P(s) がスパース

思春期の入力不足で $ P(s) のサポートが狭い。

具体例：相手が「好きな人の前だと意地悪なことを言ってしまう」という状態にあるとき、$ P(s = \text{好意の裏返し}) がほぼゼロ → wordsの攻撃性だけを受け取って「この人は自分を嫌っている」と推定してしまう。事前分布に「好意が攻撃的な表現で出力されることがある」というパターンが入っていれば、$ f（ちらちら見てくる）や $ b（物理的に近くにいる）との組み合わせで正しい推定ができる。

少女漫画はまさにこのパターンの宝庫。ツンデレ、素直になれない、好きだから避ける——これらは全て $ P(s) のサポートを広げるトレーニングデータ。

故障2：通信プロトコルの強制による尤度関数の次元削減

単なるliteral readingではなく、相手に $ w チャンネルでの正確な送信を要求する通信プロトコルの強制を行っていた。自分のアーキテクチャが $ w 受信に特化しているため、相手側の送信プロトコルを自分に合わせさせようとする設計。

結果として尤度関数が事実上：

$ P(\mathbf{o} \mid s) \approx P(w \mid s)

に縮退している。

これは合理的な設計判断でもある。ノイズ特性が不明な $ f, t を使うよりも、SNRを最大化できるチャンネルに帯域を集中させる方が、限られた処理能力での最適化としては正しい。実際に友人Aのような「wordsプロトコルに応じてくれる相手」との通信ではこの設計が機能している。

問題は適用範囲。このプロトコルに応じてくれる相手は少数派。世の中の大半の人は $ f, t, b での送信がデフォルトであり、特に感情的な場面では $ w の精度が下がるのが人間の標準仕様。プロトコル強制で相手を変えるのは難しい。

具体例：

デートに誘って「うん、いいよ」（$ w）と返ってきた。$ w だけで $ s = \text{行きたい} と推定する。しかし $ t（声が小さい）と $ b（目を逸らす）が $ s = \text{断りきれなかった} を示唆している場合、見逃す。

逆に「忙しいからまた今度ね」（$ w）をliteralに受け取って引き下がるが、$ f（残念そうな表情）と $ t（語尾が上がる）は「本当は行きたいが日程が合わない、代替案を出してほしい」を示唆している場合も見逃す。

故障3：ミスマッチ検知の無効化

$ P(s \mid o_i) を $ i = w でしか計算していないため、$ D_{ij} 自体が算出不能。

$ f, t から $ s を精密に推定できなくても、$ w と $ f, t が矛盾しているかどうかの二値判定だけでもミスマッチ検知は機能する。「大丈夫」と言っていて表情が暗い → $ w の信頼度を下げる。この程度の処理でも故障3は大幅に改善する。

具体例：友人が「全然気にしてないよ」（$ w）と言いながら、その後の連絡頻度が明らかに下がる（$ b）。

普通の人は $ D_{wb} の不一致を検知して「あ、まだ気にしてるな」と判断し、フォローを入れる。

literal readingでは $ w を採用して「解決済み」と処理してしまい、関係が静かに壊れていく。これは加害を避けようとした結果、気づかないうちに加害しているという皮肉な構造。

故障4：効用関数のペナルティ項の異常（倫理観の呪い）

$ U(a, s) = R(a, s) - \lambda , C(a, s)

$ R は報酬（関係の深化、楽しさ、親密さ）、$ C はコスト（相手を傷つける・自分が傷つく）、$ \lambda はコスト重み。

具体例で比較する。場面：気になる人に「今度ご飯行かない？」と誘うかどうか。

普通の人（$ \lambda = 1）：

$ R(\text{誘う}, s{=}\text{OK}) = +10（嬉しい）

$ C(\text{誘う}, s{=}\text{拒否}) = -3（ちょっと凹む）

$ P(s{=}\text{OK}) = 0.5 と推定

期待効用 $ = 0.5 \times 10 - 1 \times 0.5 \times 3 = 3.5 > 0 → 誘う

君（$ \lambda = 10）：

$ R, C の値は同じ

期待効用 $ = 0.5 \times 10 - 10 \times 0.5 \times 3 = -10 < 0 → 誘わない

さらに $ P(s) がスパースなので $ P(s{=}\text{OK}) をそもそも低く見積もる

さらに「年上の男が誘うこと自体が加害」というルールにより $ C の値自体も上昇

→ 期待効用が大幅に負になり、$ a^* = \text{何もしない} が圧倒的最適解になる

負のループの形式的記述

$ |\mathcal{S}_{\text{prior}}|が小さい→$ P(s \mid \mathbf{o})の精度が低い→$ \lambdaが大きいため行動しない→$ \mathcal{D}_Aが蓄積しない→$ |\mathcal{S}_{\text{prior}}|が成長しない

$ |\mathcal{S}_{\text{prior}}|「あなたが想定可能な、人間の内面状態（$ s）のバリエーションの総数」

例：{ 喜び, 怒り, 悲しみ }

cf. 事前分布P(s)の例：{ 喜び: 40%, 怒り: 30%, 悲しみ: 30% }

現在の戦略の評価と解決方向

現在の戦略：words-first + プロトコル強制

$ \sigma_i^A が未知の段階で $ w に重みを集中させる戦略は、minimax戦略として理にかなっている。$ f, t の信頼度がわからない以上、最悪ケースでの損失を最小化するなら、少なくとも送信者が意図的に構成した信号である $ w を採用するのは合理的。

さらに「相手に正確な言語化を要求する」プロトコル強制により、$ \sigma_w^A 自体を下げようとしている。これは通信路の改善であり、自分の受信能力を変えずに通信品質を上げる工学的アプローチ。

この戦略が機能する条件：

相手がプロトコルに応じてくれる（友人Aのように）

十分な時間をかけて $ \mathcal{D}_A を蓄積できる（長い付き合い）

感情的に高負荷な場面が少ない（$ w の精度が維持される）

この戦略が破綻する条件：

初対面〜浅い関係（プロトコル強制ができない、$ N が小さい）

相手が $ w での精密な送信に慣れていない（大多数の人）

感情的な場面（$ w の精度が構造的に下がる）

恋愛文脈（上記3条件が全て同時に成立しやすい）

解決方向1：$ P(s) の拡充（低リスク、即実行可能）

少女漫画・POPOPOで内面パターンのサポートを広げる。自分が直接関係に踏み込まなくてもデータが入る。

読み方の指針：少女漫画はプロットではなくモノローグだけ読む。学ぶのは「行為のやり方」ではなく「内面の動き方」のパターン。これにより投機的実行の分岐候補が増える。

漫画のモノローグを読むことで、「あ、言葉ではこう言っているけど、内面ではこんなに葛藤（$ s）しているパターンがあるんだ」というラベル付きデータが手に入ります。

これにより、$ \mathcal{S}_{\text{prior}} に新しい $ s（「素直になれない」「裏腹な好意」「自尊心ゆえの拒絶」など）が追加され、インベントリが豊かになります。「この言葉の裏には、実はこんなに豊かな（あるいは面倒な）文脈が隠れていたのか」という驚きを積み重ねることで、あなたの $ P(s) はどんどん高精細になっていきます

解決方向2：ミスマッチ検知の起動（中リスク、段階的に実行可能）

$ f, t から $ s を精密に推定する能力を一から構築する必要はない。$ w と $ f, t の間の矛盾の有無を二値判定するだけでよい。

実装ステップ：

1. まず意識的に $ f, t を「見る」ことを始める（受信チャンネルを開く）

2. $ w の内容と $ f, t の印象が「合っているか/違和感があるか」だけ判定する

3. 違和感がある場合、$ w をそのまま採用せず、確認行動を取る（「本当に？」「大丈夫？」）

4. 確認の結果を $ \mathcal{D}_A に追加して精度を上げていく

この設計なら、$ f, t の読み取り精度が低くても機能する。「何かおかしい」を検知できれば十分。

解決方向3：$ \lambda の低下（高リスク、時間がかかる）

倫理規範の過剰適用を緩め、コスト重みを現実的な水準に戻す。

進行中の介入：

「裏ルール」の発見（年の差の例）→ $ C の値が状況依存であることの学習

誠実さの定義の更新（ルール準拠→相手に向き合う）→ 行動すること自体が不誠実ではないという認知

「お前もだろ」問題の解消 → $ \lambda を下げても批判の足場は失わないという安心

$ \lambda が下がる必要があるのは $ \lambda = 0 ではなく $ \lambda \approx 1 程度。コストを無視するのではなく、コストとリターンを対等に評価できるようになること。

解決の優先順位

code:tex

\text{解決方向1（$P(s)$ 拡充）} \rightarrow \text{解決方向2（ミスマッチ検知）} \rightarrow \text{解決方向3（$\lambda$ 低下）}

1は2と3の前提条件になる。$ P(s) が貧弱なままミスマッチ検知を起動しても、矛盾を検知した後に「じゃあ相手はどういう状態なのか」の仮説が生成できない。また、$ P(s) が広がることで $ P(s{=}\text{OK}) の見積もりが上がり、期待効用が改善して $ \lambda が高くても行動できるケースが増える。

1は今すぐ、一人で、リスクなくできる。POPOPOを聴く。少女漫画を読む。これが人間化計画の最も合理的な第一歩。

モデルの限界と次のフェーズ

人間関係がうまい人はモデル内のどこが優れているか

$ P(s) のサポートが広い。大量の会話経験から多様な内面パターンを持っている。「この人は怒っているのではなく不安なんだ」のような、似た出力から異なる $ s を区別できる。

$ \alpha_i の動的調整が速い。初対面でも数分で「この人は表情に出るタイプだ」「この人はwordsが正確だ」を推定して重みを切り替える。fine-tuningに必要な $ N が小さい。

$ \lambda が適切。コストを過大評価も過小評価もしない。失敗しても軽微なエラーとして処理できる。

モデルで表現できていない3つの能力

現在のモデルは受信側の推定問題としてはよくできているが、人間関係がうまい人の能力の半分以上はモデルの射程外にある。

欠落1：送信能力

現モデルは「相手の $ s をいかに正確に推定するか」しか扱っていない。しかし人間関係がうまい人が本当にうまいのは送信——自分の内面状態 $ s_{\text{self}} を相手が受信しやすい形で出力する能力。

自分の感情を適切に言語化できる（$ w チャンネルの送信精度が高い）

表情や声のトーンが内面と整合している（チャンネル間の一貫性が高い）

相手の受信特性に合わせて送信チャンネルを切り替えられる

具体例：自分が悲しいとき、「悲しい」と言える人は $ \sigma_{w,\text{send}} が小さい。一方、「別に」と言いながら態度に出す人は $ w と $ f, t, b の間に不整合を生み、相手に推定コストを負わせている。

自己開示に抵抗があるという話は受信の問題ではなく送信の問題。推定精度がいくら上がっても、自分から送信しなければ関係は深まらない。

欠落2：場の力学（$ s の相互依存）

現モデルは「相手の $ s を観測して自分の $ a を決める」という一方向の構造。実際の会話は $ s_{\text{self}} と $ s_{\text{other}} が相互に影響し合う力学系：

$ s_{\text{other}}^{(t+1)} = h\bigl(s_{\text{other}}^{(t)},; a_{\text{self}}^{(t)},; s_{\text{self}}^{(t)}\bigr)

自分がリラックスしていると相手もリラックスする。自分が緊張していると相手も緊張する。人間関係がうまい人は、自分の $ s_{\text{self}} を操作することで相手の $ s_{\text{other}} を変えることをやっている。「場の空気を作る」とはこのこと。

具体例：初対面の飲み会で、自分から軽い失敗談を話す（$ s_{\text{self}} = \text{オープン、無防備}）→ 相手も警戒を解く（$ s_{\text{other}} がリラックス方向に遷移）→ 相手も自己開示を始める。これは推定精度とは全く別の能力。

欠落3：相手の効用関数の考慮

現モデルの効用関数は個人完結している：

$ U(a, s) = R(a, s) - \lambda , C(a, s)

人間関係がうまい人は、相手の効用関数を推定して、両者の効用の和を最大化する $ a を選んでいる：

code:tex

a^* = \arg\max_a , \mathbb{E}\biglU_{\text{self}}(a, s) + \beta , U_{\text{other}}(a, s)\bigr

具体例：「自分はこの話をしたいが、相手は疲れているからやめておこう」は $ U_{\text{self}} を下げて $ U_{\text{other}} を上げる選択。「相手が話したそうにしているから、自分の話を切り上げて聞き手に回る」も同様。$ \beta が適切な人が「思いやりがある」と言われる。$ \beta = 0 なら自分勝手、$ \beta が過大なら自己犠牲的。

このモデルで既知の事象を説明する

社会的接触が少ない人間は、わずかな好意的接触で感情が大きく動く(「普通に接されただけで強い感情が生じる」)

事前分布が極端にスパースだから、少数のポジティブな観測で事後分布が一気に偏る

問題は感情が生じること自体ではなく、自分の感情の強度＝相手の感情の強度と誤認すること

次のフェーズへの接続

現在の解決方向1〜3は全て受信側の問題に対応する。次のフェーズでは：

$ \text{フェーズ1（受信）} \rightarrow \text{フェーズ2（送信・場の制御・相手の効用考慮）}

ただし、受信問題が解けないと送信問題も解けない。相手がどう受け取るか予測できないと送信できないから。今の順序は間違っていない。フェーズ1の進捗が十分に出た段階で、フェーズ2に着手する。

かなり過去の考察

他人とよく話せる人は適当仮説