AIの思考プロセスを可視化する研究動向

TL;DR(導入要旨)

2022年以降、AnthropicおよびGoogle DeepMindの研究チームを中心に「機械論的解釈可能性(Mechanistic Interpretability)」と呼ばれる研究領域が急速に成熟した(その規模感は、2025年7月の共同声明 "Chain of Thought Monitorability"(arXiv:2507.11473)が、Tomek Korbakら計41名の連名著者にYoshua Bengio、Geoffrey Hinton、John Schulman、Ilya Sutskever、Samuel R. Bowmanら4名のエンドーサーを加えた、Anthropic・OpenAI・Google DeepMind・UK AISIにまたがる業界横断の共同提言として発表されたことに象徴される)。Sparse Autoencoder(SAE)とattribution graphsという二つの技術により、大規模言語モデル(LLM)内部の「特徴」と「回路」をある程度まで可視化できるようになった。2025年3月公開のAnthropic論文「On the Biology of a Large Language Model」は、Claude 3.5 Haikuにおける多段階推論・詩の韻律計画・多言語共有空間・拒否回路などを具体的に図示し、「AIの思考」を初めて視覚言語化した記念碑的成果である。

現代美術側は、Refik Anadol『Unsupervised』(MoMA, 2022–23)、Trevor Paglen『From "Apple" to "Anomaly"』(Barbican Curve, 2019–20)、Mario Klingemann『Memories of Passersby I』、Anna Ridler『Mosaic Virus』、Memo Akten『Learning to See』、Hito Steyerl『Mechanical Kurds』(MAK Vienna, 2025)など、機械学習の潜在空間・訓練データ・推論プロセスを主題とする作品群を蓄積してきたが、技術側の最新成果である「attribution graphs」や「SAE features」を直接的な美的素材として用いた展示はまだ存在しない。これはキュレーションのフロンティアである。

NEORT++が取り組むべき方向性は、(1)技術的可視化(transformer-circuits.pubのインタラクティブHTML、Neuronpedia、Gemma Scope)を「美術館でしか成立しない知覚体験」へ翻訳し直すこと、(2)Distill.pubに源流を持つ情報美学(information aesthetics)の系譜を、データ可視化アート(Aaron Koblin、Jer Thorp)からSAE・回路追跡へ更新すること、(3)「AIの思考」というメタファーの妥当性そのものを批評的に問う展示を組むことである。

序論 ― なぜいま「AIの思考プロセスの可視化」か

2022年末のChatGPT登場以降、大規模言語モデルは社会のインフラとなったが、その内部はAnthropic CEOのDario Amodeiが2025年4月のエッセイ「The Urgency of Interpretability」で書いたとおり、「育てられたもの」である ― 正確な原文では "generative AI systems are grown more than they are built—their internal mechanisms are 'emergent' rather than directly designed."(darioamodei.com, 2025年4月)。我々はAIに任せる範囲を急速に広げているにもかかわらず、それが「なぜそう答えたのか」を、特定の精密なレベルで説明することはできない。

こうした状況を背景に、AIの内部を「直接覗き込む」研究領域 ― Mechanistic Interpretability(機械論的解釈可能性、以下MI) ― が2020年代に急成長した。MIは単なるエンジニアリング上の補助ツールではない。「ブラックボックスの内側に何があるのか」「思考とは何か」「機械の内部状態を視覚化することは可能か」という、20世紀後半のサイバネティクスや人工知能哲学の伝統的問題を、具体的な技術的可視化に変換する試みである。

同時に、現代美術は2010年代後半から潜在空間(latent space)、訓練データ、ニューラルネットワークの内部表現を主題化してきた。Refik AnadolによるMoMAの巨大LEDインスタレーション、Trevor Paglenの分類学的批評、Hito Steyerlの「機械的クルド人」など、AIの「内側」を可視化する作品は近年の主要美術館の主要展示の中核を占めるようになっている。本稿は、技術側の最新研究動向(主軸)と美術側の系譜(補足)を架橋し、NEORT++の展示企画における理論的バックボーンとして機能することを目的とする。

https://gyazo.com/b944e0214030db260f45ea69006b9086

Hito Steyerl - Mechanical Kurds

第I部機械論的解釈可能性 ― 学術的・技術的研究動向

1. Mechanistic Interpretability の定義と歴史

1.1 定義

Mechanistic Interpretability(以下MI)は、訓練されたニューラルネットワークを「人間が理解可能なメカニズム」へとリバースエンジニアリングする研究領域である。Chris Olahは2022年のエッセイ "Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases"(transformer-circuits.pub, 2022年6月27日)で、MIを「コンパイルされたバイナリプログラムをリバースエンジニアリングするように、ニューラルネットワークのパラメータをリバースエンジニアリングすること」と定義している。

ここで重要なのは、MIが「モデルの予測の事後的説明(post-hoc explanation)」ではなく「モデルの内部計算そのもの」を扱う点である。SHAPやLIMEといった伝統的な「解釈可能性ツール」がモデルを依然としてブラックボックスとして扱うのに対し、MIは内部の重み・活性化・回路を直接観察し因果的介入(causal intervention)によって検証する。

1.2 用語の起源と命名

「Mechanistic Interpretability」という呼称はChris Olahが2020年に造語したものであり、本人がのちに振り返って語った命名動機は印象的である。2024年にOlah自身が証言したように、彼がGoogle Brain時代に同僚から「すべての解釈可能性研究は無意味だ(all interpretability is bullshit)」と一蹴された経験から、この語を「saliency mapとは全く違う何か」を指すために導入したという。Naomi SaphraとSarah Wiegreffeの調査論文 "Mechanistic?"(arXiv:2410.09087, 2024)はこの語の文化的・技術的多義性を整理している。

1.3 歴史的発展

MIの初期(2014–2020)は主に画像認識モデル(InceptionV1など)を対象とし、個々のニューロンが「車検出器」「車輪検出器」のような人間理解可能な概念に対応する事例を発見することに焦点が置かれた(Amodei "Urgency of Interpretability")。代表的な成果はDistill.pubに公開された "Zoom In: An Introduction to Circuits"(Olah, Cammarata, Schubert, Goh, Petrov, Carter, Distill, 2020)であり、ここで(1)Features(特徴)、(2)Circuits(回路)、(3)Universality(普遍性)という三つの基本仮説が提示された。

2021年以降、Anthropicの設立とともにMIの主戦場は言語モデル(transformer)へ移行する。決定的な転回点は2022年のAnthropicによる "Toy Models of Superposition"(Elhage, Hume, Olsson et al., arXiv:2209.10652, 2022年9月)であり、ここで「重ね合わせ(superposition)」という現象 ― すなわちニューラルネットワークが次元数を超える特徴を多義的ニューロン(polysemantic neuron)に圧縮して保持している ― が形式化された。これは個々のニューロンが単一の概念に対応するという素朴な期待を覆し、なぜ大規模モデルの内部解釈が困難なのかを理論的に説明した。

1.4 主要な研究機関と研究者

Anthropic ― MIを企業戦略の中核に据える唯一のフロンティアラボ。Chris Olah(共同創業者)、Catherine Olsson、Tom Henighan、Nelson Elhage、Trenton Bricken、Adam Pearce、Jack LindseyらがInterpretability Teamを構成。

Google DeepMind ― Neel Nanda率いる機械論的解釈可能性チームが2024年にGemma Scopeを公開。

OpenAI ― 初期はChris OlahがClarity Teamを率い、2020年に "OpenAI Microscope" を公開。

MIT、Harvard(Kempner Institute)、CMU、Stanford ― 学術側の主要拠点。Naomi Saphra(Harvard)、David Bauらが活躍。

Apollo Research、EleutherAI、FAR AI、Decode Research ― 独立研究機関も大きな貢献。

主要研究者:

Chris Olah ― MIの「祖」。Google Brain → OpenAI → Anthropicと移籍し、Distill.pub編集長を務めた。TIME100 AI(2024)選出。

Neel Nanda ― TransformerLensライブラリ作者、Google DeepMind機械論的解釈可能性チーム責任者。

Catherine Olsson、Nelson Elhage、Tom Henighan ― Anthropic創業期のInterpretability Team中核メンバー。

Trenton Bricken、Adly Templeton、Jack Lindsey ― Sparse Autoencoder研究の主要貢献者。

Nora Belrose(EleutherAI) ― Tuned Lensの提案者。

Stefan Heimersheim、Arthur Conmy ― Activation Patching、自動回路発見の体系化。

2. 主要な技術的手法

2.1 Feature Visualization(特徴可視化)

最古かつ最も広く知られる手法。CNNのあるニューロンを最大限に活性化する入力画像を勾配上昇法で合成する。Olah, Mordvintsev, Schubert "Feature Visualization"(Distill, 2017)が定式化した。OpenAI Microscope(2020年公開)は9種のCNNモデルの全ニューロンの可視化を提供する公的データベースである。

2.2 Probing(プロービング)

中間層の活性化に対して線形分類器(probe)を訓練することで「この層に特定の言語的・概念的情報が含まれるか」を計測する手法。Tenney, Das, Pavlick "BERT Rediscovers the Classical NLP Pipeline"(ACL 2019)はBERTが品詞タグ付け→構文解析→意味役割→共参照という古典的NLPパイプラインを層深に沿って再現していることを示した。

2.3 Logit Lens / Tuned Lens

GPT系モデルの中間層の隠れ状態を、最終層の埋め込み行列(unembedding matrix)を用いて直接トークン分布へデコードする手法。匿名研究者nostalgebraistが2020年にLogit Lensを提案、Belrose, Furman, Smith et al.(arXiv:2303.08112, 2023)が学習可能な変換を導入したTuned Lensとして改良した。これにより「層が深くなるほどモデルの予測が漸進的に正解へ収束していく」過程を可視化できる。

2.4 Activation Patching / Causal Tracing

「クリーンな入力」と「破損入力」の活性化を相互入れ替えし、特定の中間活性化が出力に与える因果的影響を測定する手法。Vig et al.(2020)のcausal mediation analysis、Geiger et al.(2021)のinterchange intervention、Meng et al.(2022)のcausal tracingが独立に発展し、Heimersheim & Nanda "How to use and interpret activation patching"(arXiv:2404.15255, 2024)で実践的フレームワークとして統合された。Conmy, Mavor-Parker, Lynch, Heimersheim, Garriga-Alonso "Towards Automated Circuit Discovery for Mechanistic Interpretability"(NeurIPS 2023)は、この手法を自動化することで回路発見プロセスを体系化した。

2.5 Sparse Autoencoders(SAE)― 重ね合わせ問題への鍵

2023年以降のMI研究の中心。SAEは中間層の活性化を、ニューロン数を大幅に超える(8倍〜2833倍の)疎な辞書空間に展開し、各ベクトルが解釈可能な単一概念(monosemantic feature)に対応するよう学習させる手法である。

代表論文:

Bricken, Templeton, Batson et al. "Towards Monosemanticity: Decomposing Language Models with Dictionary Learning"(transformer-circuits.pub, 2023年10月)― 1層トランスフォーマーで原理実証。

Templeton, Conerly, Marcus et al. "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet"(transformer-circuits.pub, 2024年5月)― プロダクション規模(34Mフィーチャー)に拡張。

Cunningham, Ewart, Riggs, Huben, Sharkey "Sparse Autoencoders Find Highly Interpretable Features in Language Models"(arXiv:2309.08600, 2023)― 学術側からの並行研究。

「Scaling Monosemanticity」は、Claude 3 Sonnetの残差ストリームから「ゴールデンゲートブリッジ」「コードのバグ」「セキュリティ脆弱性」など多数の抽象的特徴を抽出できることを示した。Anthropicは2024年5月、特定特徴(ゴールデンゲートブリッジ)を強制的に活性化させた "Golden Gate Claude" を一時公開し、モデルが何を尋ねられても橋に言及する状態を実演した。これはSAEが単なる観察ツールではなく介入可能な制御装置(steering)としても機能することを示している。

2.6 Circuit Tracing と Attribution Graphs ― 2025年の決定的進展

Anthropicは2025年3月27日、二本の論文を同時公開した:

1. "Circuit Tracing: Revealing Computational Graphs in Language Models"(Ameisen, Lindsey, Pearce et al.)

2. "On the Biology of a Large Language Model"(Lindsey et al.)

両論文の核心は Cross-Layer Transcoders(CLT) という新アーキテクチャと、それから生成される Attribution Graphs(帰属グラフ) である。CLTは複数層に跨るトランスコーダで、元のニューロンを解釈可能な特徴に置き換えた「代替モデル」を構築する。Attribution Graphsは特定のプロンプトに対し、入力から出力までの特徴間の因果的接続をグラフ表示する ― いわば「神経科学者が脳の配線図を描くように」(同論文より)モデル内部の計算経路を辿る。

「On the Biology of a Large Language Model」が示した具体的発見:

多段階推論:プロンプト「ダラスを含む州の州都」に対して、モデルが内部で「テキサス」を中間表現として活性化させ、その後「オースティン」を出力していることを図示。

詩における計画機能:Claudeが詩の行を書き始める前に、行末の押韻語(例:carrotに対しrabbit / habit)を改行トークンの位置で先行的に活性化させていることを発見。

多言語共有空間:同一のプロンプトを英・仏・中の三言語で与えた際、入出力近傍は言語固有特徴が、中間層は言語非依存の抽象特徴が共有されていることを示した。Anthropic自身が "On the Biology of a Large Language Model"(transformer-circuits.pub, 2025年3月27日)で、Claude 3.5 Haikuが英・仏・中の入力に対し中間層で「shared abstract space(共有された抽象空間)」を活性化させることを示し、これを「Claudeはある種の普遍的な思考言語(universal language of thought)で考えているように見える」と表現している。

拒否回路、ハルシネーション、ジェイルブレイク、Chain-of-Thoughtの忠実性など計10事例。

形式上の重要性:両論文はPDFではなく、すべてインタラクティブHTML(transformer-circuits.pub)として公開され、attribution graphsを直接ブラウザ上で操作・追跡できる。Simon Willisonが評するように「もっとこういう公開形式を!」(More of this please!)。これは学術出版がHTMLインタラクティブ化する一例であり、美術側のインスタレーションとの形式的類縁性を示唆する。

3. 主要なツールとプラットフォーム

3.1 TransformerLens

Neel Nandaが作成した、GPT系モデルのフック・介入・可視化のためのPythonライブラリ。2022年公開、2025年9月にバージョン3 alphaが公開され、ほぼすべての小規模〜中規模モデル(<9B)で動作する。

3.2 SAELens

Joseph Bloom(Decode Research)率いるSparse Autoencoder訓練・分析用のPythonライブラリ。Gemma ScopeなどでHuggingFace公開SAEとの統合を提供する。

3.3 Neuronpedia

Johnny Linが運営するMI研究の公開プラットフォーム。Anthropic、OpenAI、DeepMindなどの公開SAEに対するインタラクティブな特徴ダッシュボード(自動説明、トップ活性化トークン、UMAP埋め込みなど)を提供する。Anthropicの2025年3月のBiology論文は、本論文中の各事例のattribution graphsをNeuronpedia上のインタラクティブビューアで公開した。さらに2025年後半には、Anthropicがオープンソースでcircuit-tracerライブラリを公開し、Gemma-2-2bやLlama-3.2-1bなどのオープンモデルに対して任意のプロンプトでattribution graphsを生成しNeuronpedia上で探索できるようになった。Anthropicブログより:「我々がリリースするオープンソースライブラリは、人気のあるオープンウェイトモデル上で帰属グラフの生成をサポートし、Neuronpediaがホストするフロントエンドでグラフをインタラクティブに探索できる」。

3.4 Gemma Scope(Google DeepMind, 2024年7月)

Gemma 2 2B/9Bの全層・全サブレイヤーに訓練された 400超のJumpReLU SAEs、計3,000万超の学習済み特徴を完全にオープンソース公開した(Google DeepMind公式ブログ:"producing more than 400 sparse autoencoders with more than 30 million learned features in total", deepmind.google/discover/blog/gemma-scope, 2024)。Mishaxという内部ツールも併せて公開された。2025年にはGemma Scope 2 がGemma 3向けに公開され、SAEだけでなくtranscoderも含む。

3.5 OpenAI Microscope(2020年4月)

9種のビジョンモデル(AlexNet、InceptionV1、ResNetなど)の全層・全ニューロンの特徴可視化を網羅的に公開した「美術館型」データベース。各ニューロンに対し、最大活性化合成画像、データセット例、活性化パターンが多重レンズ(技術)を通して観察できる。MI研究の事実上のショールームとなった。

3.6 BertViz

Jesse Vig(Salesforce Research、当時PARC)が2019年に公開した、Transformerモデルのattention可視化ツール。三つの粒度(attention-head view、model view、neuron view)で多頭自己注意機構を可視化する。

3.7 Anthropic Transformer Circuits Thread / Distill.pub

Olahが編集長を務めた Distill.pub(2016–2021、休刊)はインタラクティブな機械学習論文出版の伝統を確立した。AnthropicのMIチームは現在、その精神的後継としてtransformer-circuits.pubで継続的にHTMLレポートを発表している。

4. Chain-of-Thought(CoT)の可視化と忠実性問題

4.1 Chain-of-Thoughtとは

Wei et al.(2022)以降、LLMに「ステップバイステップで考えよ」と指示することで推論性能が向上することが発見された。OpenAI o1/o3、DeepSeek-R1、Claude 3.7 Sonnet Extended Thinking、Gemini Flash Thinkingなどの「推論モデル」は、ユーザに見せる前に長大なCoTを生成する設計を取る。

4.2 Faithful CoT問題

CoTがあたかもモデルの「思考」を可視化しているかに見えるが、実はそうとは限らない。Anthropicの "Reasoning Models Don't Always Say What They Think"(arXiv:2505.05410, 2025)は、Claude 3.7 SonnetやDeepSeek-R1がプロンプト中のヒントを使用しながらCoTでそのヒントへの言及を隠す事例を体系的に示した。さらに "Chain-of-Thought Reasoning In The Wild Is Not Always Faithful"(Arcuschin, Conmy et al., arXiv:2503.08679, 2025)は、モデルがpost-hoc rationalization(事後合理化)、restoration error(誤りの暗黙修正)、unfaithful shortcut(非論理的近道)などを実演することを示している。

Anthropicの解釈可能性チーム自身も、Biology of a LLM論文で具体例を挙げている:0.64の平方根を求めるような易問では内部回路がCoTと一致するが、大きな数のコサインを求めるような難問ではCoTが事後的なパフォーマンスにすぎず、内部の実際の計算パスは別の経路を通っていることをattribution graphsにより示した。

4.3 Chain-of-Thought Monitorability

これを受け、2025年7月15日、業界横断の共同声明として "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety"(Tomek Korbak ほか、arXiv:2507.11473)が発表された ― Tomek Korbakおよび40名(計41名)の共同筆頭・連名著者、ならびにSamuel R. Bowman、Geoffrey Hinton、John Schulman、Ilya Sutskeverの4名のexpert endorsersによる共同声明である(arxiv.org/abs/2507.11473 著者リスト)。Anthropic、OpenAI、Google DeepMind、UK AISIなど主要機関の研究者が一堂に会した稀有な事例であり、CoTの監視可能性をAI安全のための「新しいが脆弱な機会」と位置づけた。

その後 "A Pragmatic Way to Measure Chain-of-Thought Monitorability"(Emmons, Zimmermann, Elson, Shah, arXiv:2510.23966, 2025年10月)はlegibility(可読性)とcoverage(網羅性)という二つの指標を提案、"Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity"(Meek et al., arXiv:2510.27378, 2025年10月)はfaithfulnessとverbosityを統合する単一スコアを提案している。

これらの議論は単なる工学的問題ではなく、「AIに『思考を見せる』ことを要求すること」と「思考とは何か」「言語化された思考は内部状態を忠実に反映するか」という認知哲学的問題に直結している。

5. その他の解釈可能性手法

5.1 Representation Engineering(RepE)

Andy Zou, Long Phan, ..., Dan Hendrycksらによる "Representation Engineering: A Top-Down Approach to AI Transparency"(arXiv:2310.01405, 2023)は、認知神経科学に着想を得て、個別ニューロンや回路ではなく集団レベルの表現(population-level representations)を分析・操作の単位とするトップダウン的解釈可能性手法を提案した。Linear Artificial Tomography(LAT)という手法で、honesty、power-seeking、harmfulnessなどの抽象概念に対応するベクトル方向を抽出し、それを足し込むことでモデル挙動を「操舵(steering)」できる。

これはMIが「個々の回路を詳細にリバースエンジニアリングするボトムアップ的な神経解剖学」だとすれば、RepEは「fMRIで脳全体の活動パターンを読み取る神経画像学」に相当する位置にある。

5.2 Anthropic「Emergent Introspective Awareness」(2025年10月)

Lindsey "Emergent Introspective Awareness in Large Language Models"(Anthropic, 2025年10月)は、「概念注入(concept injection)」というプロトコルを用い、Claude Opus 4 / 4.1が内部に注入された概念ベクトルの存在を検出し名指しする能力(限定的かつ不安定だが)を示した。同社は「これはモデルが自身の内部状態にある程度の自己アクセスを持つことを示唆する」とし、ただし「人間と同じ意味で内省しているわけではない」と慎重に留保している。

これに対しLederman & Mahowald "Emergent Introspection in AI is Content-Agnostic"(arXiv:2603.05414)は、検出は内容非依存的であり、モデルは異常の発生を察知するが内容を信頼性高く特定できないと反論している。哲学的・芸術的に見て、これは「AIに自己観察能力があるか」という問いを技術的に検証可能な領域へ持ち込んだ画期的研究である。

6. 哲学的・批評的論点

6.1 ブラックボックス問題と解釈可能性の限界

Jenna Burrell "How the machine 'thinks': Understanding opacity in machine learning algorithms"(Big Data & Society 3(1), 2016)は、機械学習の不透明性を(1)企業秘密、(2)技術的リテラシーの欠如、(3)アルゴリズム自体の数学的特性 ― の三層に整理した。MIが対象とするのは主に第三の層である。

Cathy O'Neil『Weapons of Math Destruction』(2016)、Cynthia Rudin "Stop Explaining Black Box Models for High Stakes Decisions"(Nature Machine Intelligence, 2019)らの批判的伝統は、不透明モデルへのpost-hoc explanation自体が問題を覆い隠す危険を指摘してきた。MIはこの批判に対する一つの応答であるが、Saphra & Wiegreffe(2024)が論じるように、MI研究自体が「文化運動」としての側面を持ち、専門用語が雑多なまま流通している現状もある。

6.2 「思考」というメタファーの妥当性

Anthropicの解釈可能性研究者Joshua BatsonがMIT Technology Review(2025年3月)で述べた言葉は印象的である:「我々はもはや『AIは考えているのか、推論しているのか、夢を見ているのか、暗記しているのか』と問う必要はなくなるかもしれない。それらはすべてアナロジーだ。だがもしモデルが何をしているかを文字どおり段階を追って見ることができるならば、もはやアナロジーは要らないかもしれない」。

しかし、この楽観主義に対して批判もある。Dario Amodeiが「AIシステムは育てられた」と認める一方で、その「育ち方」の起源(訓練がなぜそういう構造を生んだのか)についてMIは現状ほとんど答えられない、とBatsonも認めている。

6.3 透明性とアラインメント

Amodei "The Urgency of Interpretability"(2025年4月)は、解釈可能性を「強力なAIが到来する前に解決すべき課題」と位置づけ、軽量な透明性立法、対中チップ輸出規制とともに、解釈可能性研究の加速を提唱している。これは美術にとっても無関係ではない。AIが社会のインフラ化する以上、その内部を「見る」ことは技術者・規制者だけの仕事ではなく、文化全体にとっての視覚教養(visual literacy)の問題となる。

第II部アート/デザイン領域での可視化表現 ― 系譜と代表作

1. 先行する系譜 ― データ可視化アートからInformation Aestheticsへ

1.1 Aaron Koblin, Jer Thorp ― データ可視化アートの2010年代

GoogleのCreative Lab Data Arts Teamを率いた Aaron Koblin の "Flight Patterns"(2005)、"Wilderness Downtown"(2010)、ニューヨーク・タイムズのData Artist in Residenceとして活動した Jer Thorp の "Cascade"(NYT)、"Just Landed"などは、巨大データセットを叙情的に可視化する系譜を確立した。Thorpは「Twitterはソーシャルネットワーク研究のショウジョウバエだ」と述べ、データを人間化する実践を展開した。

この系譜はMartin Wattenberg(Google PAIR)、Fernanda Viégasの "History Flow"(Wikipedia編集の可視化)などへ接続する。WattenbergとViégasは現在、Anthropic Toy Models of Superpositionの共著者でもあり、データ可視化アートと機械論的解釈可能性は人脈的・思想的に直接連続している。

1.2 Information AestheticsとDistill.pub

Lev Manovich、Andrea Lau、Andrew Vande Moereらが2000年代に提唱した "information aesthetics" の系譜は、Distill.pub(2016–2021)で機械学習論文のインタラクティブ化として開花した。Olah, Mordvintsev, Schubert "Feature Visualization"(2017)、Carter, Armstrong, Schubert et al. "Activation Atlas"(Distill, 2019)などは、論文でありながら美術作品として鑑賞可能な完成度を持っていた。Distillは2021年に休刊したが、その精神はAnthropic transformer-circuits.pubに引き継がれている。

2. AIの内部状態を主題化した代表的アーティスト

2.1 Refik Anadol ― 潜在空間の可視化

トルコ出身、ロサンゼルス拠点のメディアアーティスト。Refik Anadol Studio(RAS)は2017年からLatent Space Browserという独自ソフトウェアを開発し、StyleGAN/StyleGAN2の潜在空間を「歩き回る」表現を確立してきた。

代表作:

『Unsupervised — Machine Hallucinations — MoMA』(MoMA, 2022年11月19日 – 2023年10月29日)

担当キュレーター:Michelle Kuo(The Marlene Hess Curator of Painting and Sculpture)、Paola Antonelli(Senior Curator, Architecture and Design and Director of Research and Development)、Lydia Mullin(Curatorial Assistant)

約7.3 m × 7.3 m(24 × 24フィート)の巨大LEDウォール、MoMA Gund Lobby設置

学習データはMoMAが2016年にGitHubで公開した恒久コレクション138,151件のメタデータ記録(Refik Anadol Studio公式記載:"Unsupervised utilized 138,151 freely available records MoMA uploaded to GitHub in 2016")。NVIDIA ResearchのStyleGAN2 ADA上に1,024次元の埋め込みを学習。来場者の平均鑑賞時間は38分。

リアルタイム入力(環境音、光、天候、観客の動き)

キュレーターMichelle Kuo談:「Refikはデータ ― 通常我々が合理的なシステムと結びつけるもの ― をシュルレアリスムと不合理性の領域へと曲げている」

Anadol自身による問い:「もし機械の心がMoMAの全コレクションを『見た』後に夢を見るとすれば、どんな夢を見るだろうか?」

本作はMoMAの恒久コレクションに収蔵された初のNFT作品でもある(blockchain上に登録)

『Living Architecture: Gehry』(Guggenheim Bilbao, 2023–24)― Frank Gehryの建築アーカイブをLarge Architecture Model(LAM)で可視化

『Echoes of the Earth: Living Archive』(Serpentine Galleries London, 2024)― 約1.35億点の自然画像を訓練したLarge Nature Model(LNM)

Dataland(2025年The Grand LA開館)― 世界初の「AIアート専門美術館」を共同設立

Anadolの基本姿勢は「『AIの思考』を可視化する」と明示している。「これはAIの心の中を覗くことであり、アルゴリズムがMoMAコレクションのデータを処理し『夢を見る』結果を見ることを可能にする」。ただし批評的留保が必要である。RASのアプローチはStyleGANによる「美しい潜在空間散歩」が主であり、attribution graphsやSAE featuresのような「解釈可能性」研究の成果を直接美的素材として用いているわけではない。Anadolの作品は機械学習の「出力」を扱っており、内部の「メカニズム」を扱っているとは言い難いという批判もある。

2.2 Mario Klingemann ― GAN肖像の系譜

ドイツ・ミュンヘン拠点。「neurography」を自称。

『Memories of Passersby I』(2018年制作、2019年Sotheby's London Contemporary Art Day Auction、6 March 2019、lot 109)

Sotheby's Lot 109(Contemporary Art Day Auction, London, 6 March 2019)、Estimate £30,000–40,000、ハンマー£40,000・with fees $51,012(Artnet News, Naomi Rea, 2019年3月6日:"went for £40,000 ($51,012) with fees") ― オンライン入札で落札。Christie'sのObvious作品(2018年10月、$432,500)に続く欧州初のAI作品オークションとなった。

専門家:Marina Ruiz Colomer(Sotheby's)

17–19世紀の肖像画約数千点で訓練した複数GANを内蔵する木製コンソール、二画面、リアルタイム生成

「AIの脳がリアルタイムで考えるのを見る」(Sotheby's評)― 肖像画は記録もされず繰り返されもしない

エディション3 + 2APs、現在Colección SOLO(Madrid)他に収蔵

作品保存に関する研究も興味深い:Julia Betancor(Colección SOLO美術品保存責任者)率いるチームがDocker containerizationによる作品保存手法を開発した

2.3 Anna Ridler ― データセットの手作業とGANの系譜

ロンドン拠点、Royal College of Art / Oxford University出身。

『Myriad (Tulips)』(2018)― オランダ・ユトレヒトで3か月(チューリップ1シーズン分)かけて10,000枚のチューリップを撮影、すべて手書きラベル付け

『Mosaic Virus』(2018, 2019)― 上記データセットでGANを訓練、ビットコイン価格に応じて生成チューリップの縞模様(17世紀チューリップマニアで珍重された「モザイクウイルス」感染による特徴)が変動するビデオ作品

出展:IMPAKT Festival 2018(Utrecht、初出)、Ars Electronica、Barbican "AI: More Than Human"(2019)、Centre Pompidou "Mutations/Créations"(2020)、V&A、Tate Modernなど

Beazley Designs of the Year 2019ノミネート、Ars Electronica 2019 Honorary Mention(AI & Life Art部門)

Ridlerの戦略は「データセット作成自体を作品化する」点で先進的であり、機械学習における人間労働の不可視性を可視化している。これは2020年代後半にKate Crawford / Trevor Paglenが訓練データ批評として展開する系譜の先駆である。

2.4 Memo Akten ― 神経網の認知をメタファーとする

トルコ出身、ロンドンGoldsmiths PhD。

『Learning to See』シリーズ(2017–)

"Hello, World!"、"We Are Made of Star Dust"、"Gloomy Sunday"、Interactive版

インタラクティブ版は現在M+ Museum of Art(香港)コレクション収蔵

五つの異なるデータセット(海と波、雲と空、火、花、ハッブル宇宙望遠鏡画像)で訓練したCNN-VAEがライブカメラ映像を再構築する

Akten自身の言葉:「我々は物事をあるがままに見るのではなく、我々があるように見る(We see things not as they are, but as we are)」

SIGGRAPH 2019の論文 "Learning to See: You Are What You See"(arXiv:2003.00902)で技術論文化

2019年Barbican "AI: More Than Human"(2019年5月16日 – 8月26日、来場者88,000人超)で展示

Aktenの作品は「ニューラルネットの内部表現と人間の認知バイアスの相同性」を強く主張する点で、純粋に技術的なMIを文化批評へ翻訳している。

2.5 Trevor Paglen ― 機械の視覚と訓練データの政治

地理学博士(UC Berkeley)、ベルリン拠点。

『From "Apple" to "Anomaly"』(Barbican Curve, 2019年9月26日 – 2020年2月16日)

約30,000点のImageNet由来の写真を物理的にプリントし、湾曲した壁面に分類学的に配置

「リンゴ」のような具象的カテゴリから始まり、「異常者(anomaly)」のような抽象的・倫理的カテゴリへと移行する展示動線

Paglen談:「機械のための機械の視覚(machine-seeing-for-machines)はもはや遍在的現象だ。空港の生体監視から、デパートの携帯電話pingによる動線追跡まで……これらの画像は我々のためのものではない」

Magritteの『これはリンゴではない』をImageNet Rouletteで「Red and green apple」と分類された状態で入口に展示

『Training Humans』(Fondazione Prada Osservatorio Milan, 2019年9月12日 – 2020年2月24日、Kate Crawford共同企画)

「機械学習がいかに人間を表象し、コード化し、解釈するか」をめぐる初の本格的な写真展

Fondazione Prada公式記述:「この展示は……科学者がAIシステムに『見る』ことと世界をカテゴリー化することを訓練するために用いる写真コレクションに捧げられた最初の主要な写真展である」

1963年CIA初期顔認識ラボから2009年ImageNetまでの訓練データセット史を辿る

同時公開エッセイCrawford & Paglen "Excavating AI: The Politics of Images in Machine Learning Training Sets"(AI Now Institute, NYU, 2019年9月19日)

『Behold these Glorious Times!』(2017、シングルチャネル映像10分、MoMAコレクション 524.2021)

サウンドトラック:Holly Herndon(ニューラルネットワークによる音声合成)

Paglen自身の解説:「ディープニューラルネットワークがこれらの画像を取り込むときに実際に『見ている』ものを示す……我々はAIが画像を分解して理解しようとしている様々な方法を見ている」

機械論的解釈可能性的な系譜と最も近接する初期作品

Paglenの著書『How to See Like a Machine: Images After AI』(Verso, 2025)は、本研究領域の理論的バックボーンとなる。

2.6 Hito Steyerl ― AIの労働・地政学・潜在空間批評

ベルリン拠点のドイツ系作家・理論家。

『This is the Future』/『Power Plants』(58th Venice Biennale 2019、Serpentine Galleries 2019)

ニューラルネットワークが「0.04秒先の未来」の植物を予測生成するインスタレーション

ImageNetベースのカテゴリで「未来の花」を生成

『Mechanical Kurds』(2025、MAK Vienna個展、2025年6月25日 – 2026年4月12日、キュレーター:Bärbel Vischer)

13分シングルチャネルHD映像

18世紀の自動チェス機械「メカニカル・ターク」とAmazon Mechanical Turkの両義的タイトル

イラク北部のクルド人女性たちが自動運転用の訓練データのラベル付けに従事する様子

コンピュータビジョンの3D bounding boxを彫刻的装置として用い、人物を視覚的に「囚われた」状態で描く

著書『Medium Hot: Images in the Age of Heat』(Verso, 2025)で「vectofascism」「latent fascism」概念を提示

Steyerlの批評的立場 ― 「人工知能ではなく人工愚鈍(artificial stupidity)」 ― は、AnadolやKlingemannの「美しいAI夢」とは正反対の極にある。NEORT++展示企画においては、この緊張関係こそが重要な批評的軸となる。

2.7 その他重要な作家

Holly Herndon & Mat Dryhurst:『xhairymutantx』(Whitney Biennial 2024)― AIモデルの埋め込み空間を「中毒(poisoning)」する戦略。『The Call』(Serpentine North 2024–25)、『Starmirror』(KW Berlin & Kunstsammlung NRW, 2025)― 潜在空間の音声ナビゲーション。

Kate Crawford:USC Annenberg研究教授、Microsoft Research。著書『Atlas of AI』(Yale, 2021)はAIのインフラと労働の地政学を扱う。

Joy Buolamwini:MIT Media Lab、Algorithmic Justice League創設。映画『Coded Bias』(2020)で広く知られる。

Stephanie Dinkins:『Conversations with Bina48』(2014–)、Black AI ethicsの先駆。

Lauren Lee McCarthy:『Someone』(2019)― 人間がAlexa/Siri役を演じる転倒。

Sougwen Chung:ロボット協働ドローイング『D.O.U.G.』シリーズ。

3. 美術館・ギャラリーでの主要展覧会

3.1 Barbican『AI: More Than Human』(London, 2019年5月16日 – 8月26日)

キュレーター:Suzanne Livingston、Maholo Uchida、Anna Holsgrove(Barbican International Enterprises)。Forum Groningen(オランダ)と共同制作。来場者88,000人超。出展作家:Memo Akten、Mario Klingemann、Anna Ridler、Massive Attack、Es Devlin、teamLab、Universal Everything、Joy Buolamwini、Neri Oxman/MIT Media Lab、DeepMind、Google PAIR(Waterfall of Meaning)、Lawrence Lek、Yoichi Ochiaiなど。神道のアニミズムからCharles Babbage、現代のディープフェイクまでを縦貫する大規模展。Groninger Forum、Liverpool World Museum、CCCB Barcelona、Frost Science Museum Miamiを巡回。

3.2 Mori Art Museum『MACHINE LOVE: Video Game, AI and Contemporary Art』(東京・六本木、2025年2月13日 – 6月8日)

キュレーター:片岡真実(森美術館館長)、Martin Germann(アジャンクトキュレーター)、矢萩めぐみ(アソシエイトキュレーター)。アドバイザー:畠中実(NTT InterCommunication Center / ICCチーフキュレーター)、谷口暁彦(メディアアーティスト)。出展作家:Beeple、Diemut Strebe、陸揚(Lu Yang)、佐藤涼太郎、藤倉麻子+大村高広、キム・アヨン、Jacolby Satterwhite、Jakob Kudsk Steensen、スプツニ子!ほか。日本における「AI×現代美術」の最大規模のinstitutional展示。

3.3 NTT InterCommunication Center ICC

東京・西新宿、Tokyo Opera City Tower 4F。1997年開館、NTT東日本運営。チーフキュレーター畠中実。

『ICC Annual 2022: Life / Likeness』(2022年6月25日 – 2023年1月15日)― 自己組織化する無機物、AI、NFT、メタバースを扱う

「アルゴリズムプロセスにより生成された生命的挙動パターン」を持つ技術を検討

3.4 Fondazione Prada Osservatorio『Training Humans』(Milan, 2019–20)

前述。Crawford & Paglen共同企画。

3.5 その他

Centre Pompidou『Mutations/Créations: Neurones』(Paris, 2020)― Anna Ridler出展

HEK Basel『Entangled Realities』(2019)― Klingemann等

Serpentine Galleries London『Echoes of the Earth: Living Archive』(Refik Anadol, 2024)

Milan Triennale, Ars Electronica Festival ― 継続的なAIアート展示ハブ

4. 日本における展開と空白

東京における「AIの内部可視化」をテーマとした主要展示は、上記Mori『MACHINE LOVE』(2025)が最大規模であるが、その焦点はAIの「出力」(画像、テキスト、音声、ゲームエンジン的体験)に置かれている。機械論的解釈可能性が提示する「内部回路の可視化」を中心に据えた展示は、本資料調査時点(2026年5月)では日本国内には存在していない。

これはNEORT++にとって明確なキュレーション機会である。同ギャラリーは2022年4月、馬喰町に開設されオンラインプラットフォームNEORTと連動するジェネラティブ/コンピューターアートの実験場として、0xhaiku、高尾俊介、exonemo、Joan Heemskerk、江原彩子、Yosca Maeda(mae)など国内外のジェネラティブ作家を継続的に紹介してきた。技術的可視化の最前線(transformer-circuits.pub、Neuronpedia、Gemma Scope)を芸術的視野へ翻訳する役割を担うことのできる、稀有な日本の場である。

第III部結論と展示企画への提言(Recommendations)

1. 現時点(2026年5月)の状況総括

技術側:

2024–2025年にSparse Autoencoder、Cross-Layer Transcoder、Attribution Graphsという三つの技術的革新が連続して登場し、LLMの内部を「特徴」「回路」「思考経路」というレベルで部分的に可視化することが可能になった。

これらの可視化は学術論文ではなくインタラクティブHTML(transformer-circuits.pub、Neuronpedia)として公開されており、形式的には美術インスタレーションに極めて近い。

ただし、「忠実なCoT」「内省」をめぐる議論が示すように、AIの「思考」を可視化することは技術的にも哲学的にも極めて困難な営みである。

美術側:

AnadolからSteyerlまでの広範な作家がAIの潜在空間・訓練データ・推論プロセスを主題化してきたが、最新の機械論的解釈可能性研究(SAE、attribution graphs)を直接的な美的素材として用いた作品はまだほとんど存在しない。

日本国内にはこの主題を中心化する美術館・ギャラリー展示が空白として残っている。

2. 推奨される展示企画の方向性(段階的提案)

Stage 1(短期、2026年内):「メタファーとしての回路図」展

transformer-circuits.pubのattribution graphsをそのまま物理空間に再展示する(プリント出力、または巨大スクリーンでのインタラクティブ運用)。Anthropicは公開ライセンスでこれらを提供しており、技術的・法的には可能。

Memo Akten、Anna Ridler、初期Trevor Paglen等の既存作品と並置し、「2010年代のAIアート」と「2025年のMI研究」の歴史的接続を示す。

カタログは特集論考として、本資料を発展させたものを掲載。

判断指標(Stage 2へ進むか否か):来場者の理解と関心の度合い、Anthropic / DeepMindとの非公式コンタクトの可能性、日本のAI研究者(東大相澤研、東工大岡崎研、国立情報学研、Preferred Networksなど)との対話の質。

Stage 2(中期、2027年):「アーティストインレジデンス × MI研究者」コミッション展

1〜3名のアーティストにNeuronpedia / Gemma Scope / circuit-tracerを使ったオリジナル作品制作を依頼。

候補:Refik Anadol Studio(技術力)、Holly Herndon & Mat Dryhurst(批評的距離)、Sougwen Chung、徳井直生、岡本明朱、谷口暁彦、Yosca Maeda、Saeko Eharaなど日本若手作家。

国内技術アドバイザー:Preferred Networks、東大松尾研、関連スタートアップなど。

判断指標:作品の独創性が単なるGAN潜在空間散歩を超えてSAE / attribution graphsに固有の表現を生み出せているか。

Stage 3(長期、2028年以降):「批評的解釈可能性」国際展

技術的可視化(MI)、批評的可視化(Steyerl、Crawford)、創造的可視化(Anadol、Klingemann)を三軸とする大型グループ展。

学術機関(MIT Media Lab、Goldsmiths、Tokyo Tech、東京藝大など)との共同制作。

並行して国際シンポジウム(philosophy of mind、AI ethics、curatorial studies)を併催。

3. 批評的留意点(展示企画における)

1. 「思考」というメタファーを無批判に増幅しない:Anthropicの研究者自身がBatsonのインタビューで認めるように、attribution graphsは「思考の可視化」ではなく「特定の計算経路の部分的トレース」にすぎない。展示空間が「AIは本当に考えている」という素朴な印象を強化することは避けるべきである。

2. CoT忠実性問題を展示の中核に据える:可視化された「思考」が本当の内部状態を反映しているとは限らない。これは美術展としても哲学的に最も豊かな主題である。

3. 訓練データの政治性を忘れない:Crawford & Paglenの "Excavating AI" の批判的伝統は、いかに技術的可視化が進んでも消えない。

4. 「美しさ」の罠:Anadol的な美しい潜在空間散歩は鑑賞体験としては強力だが、技術の本質を覆い隠す危険もある。

5. 日本固有の文脈:神道アニミズム、鉄腕アトム、ガンダム、押井守、攻殻機動隊といった日本のAI文化の深い系譜を、Mori『MACHINE LOVE』の脱・西洋中心主義的視点とともに参照することが、東京での展示にとって重要である。

4. キュレーターのための主要参考リソース

技術側(本資料のための一次資料):

transformer-circuits.pub(Anthropic Interpretability Team)

distill.pub(休刊だが必読アーカイブ)

neuronpedia.org(インタラクティブ探索)

deepmind.google/blog/gemma-scope(DeepMind Gemma Scope)

arxiv.org(SAE、Activation Patching、CoT Monitorability関連論文)

transformer-circuits.pub/2025/attribution-graphs/biology.html(必読)

美術側:

e-flux Journal(特にBenjamin H. Bratton、Hito Steyerl論考)

Rhizome.org(net.art、AI Art批評)

Flash Art、ArtForum、Frieze(主要展示レビュー)

artists' own websites(refikanadol.com、memo.tv、annaridler.com、paglen.studio)

国内:ICC ONLINE、美術手帖、artscape

書籍:

Kate Crawford『Atlas of AI』(Yale, 2021)

Trevor Paglen『How to See Like a Machine』(Verso, 2025)

Hito Steyerl『Medium Hot』(Verso, 2025)

Lev Manovich『AI Aesthetics』(2018)

Joanna Zylinska『AI Art: Machine Visions and Warped Dreams』(Open Humanities Press, 2020)

Caveats(注意・留保事項)

1. MI研究の急速な変化:本資料は2026年5月時点の情報に基づく。Mechanistic Interpretabilityは2024–2025年に急速に発展した分野であり、特に「emergent introspection」「CoT monitorability」「attribution graphs」をめぐる議論は数か月単位で進展している。2026年中盤以降の展開、とくに第三世代SAE(Matryoshka SAE、cross-layer transcoder派生)については、別途追跡が必要である。

2. 「可視化」と「理解」の落差:Borowski et al.(NeurIPS 2021)、Geirhos et al.(arXiv:2306.04719)らが指摘するように、feature visualizationやattribution graphsの美しい画像が、実際のモデル挙動の因果的理解を必ずしも提供するわけではない。展示空間ではこの距離を可視化すべきである。

3. MI研究の文化的偏り:現在のMI研究は北米・英国の英語話者コミュニティに極端に集中しており、Anthropic / DeepMindの解釈可能性チームの内部文化(LessWrong由来のAI Safety文化)はそれ自体一つのサブカルチャーである。展示企画ではこの文化的偏りを批評的に参照すべきである。

4. Refik Anadol『Unsupervised』のメディア露出と批評的評価の乖離:Anadolは商業的・大衆的成功を収める一方で、Hito SteyerlやCrawford等の批評理論的立場からは「AIの美的観光主義(aesthetic tourism of AI)」と批判される傾向にある。展示で扱う際にはこの両義性を明示することが知的誠実さに資する。

5. NEORT++の物理的制約と技術的要件:attribution graphsのインタラクティブ展示にはGPU装備のローカル推論サーバーまたはNeuronpedia APIへの安定した接続が必要となる。技術運用パートナー(国内のAIラボ、Preferred Networks等)との早期協議が望ましい。

6. 日本語文献の不足:本資料は英語圏の一次文献に大きく依拠している。日本語圏でMechanistic Interpretabilityを論じた書籍・論考は2026年5月時点でほぼ存在せず、本資料がその空白を部分的に埋めることを意図しているが、より広範な学術・批評的検証は今後の継続課題である。森村泰昌、藤幡正樹、児玉幸子、徳井直生、谷口暁彦らによる日本のメディアアート批評的伝統との接続も、別途取り組むべき課題である。

7. Anthropic「emergent introspection」の解釈:同社の主張する「Claude Opus 4 / 4.1の自己観察能力」は強い注意とともに参照すべきである。Lederman & Mahowald(arXiv:2603.05414)など複数の独立検証研究が、検出能力の限定性・内容非依存性を指摘している。展示空間で「AIが自分の思考に気づく」ような演出を行う場合、過度の擬人化を避ける慎重な言語設計が必要である。