オープンソース・ハードウェア「Stack-chan(スタックチャン)」が切り拓くヒューマン・ロボット・インタラクション研究の新たな地平:網羅的学術調査報告書
1. 序論:HRI研究におけるプラットフォームの変遷と「民主化」
1.1 研究背景:クローズドからオープンへ
ヒューマン・ロボット・インタラクション(HRI: Human-Robot Interaction)の研究領域において、実験用プラットフォームの選択は、得られる知見の質と再現性を左右する決定的な要因である。2000年代から2010年代にかけて、HRI研究は主に企業が開発したブラックボックス性の高い商用ロボット(例:SoftBank RoboticsのPepperやNao、SonyのAIBOなど)に依存してきた。これらのロボットは高度な機能を備えている反面、導入コストが高額であり、かつ内部ソフトウェアやハードウェアの改変がライセンス上または技術上制限されているケースが多かった。この「ブラックボックス性」は、研究の再現性を阻害し、特定のハードウェアに依存した知見しか得られないという課題を内包していた 。
しかし、近年のIoT(Internet of Things)デバイスの急速な普及と低価格化、そして3Dプリンティング技術の一般化により、ロボット研究の現場にパラダイムシフトが起きている。研究者自身がハードウェアを設計・製作し、ソフトウェアスタックの全層を制御可能な「オープンソース・ロボット」の台頭である 。この流れは、単なるコスト削減にとどまらず、ロボットの身体性(Embodiment)や内部状態を完全に統制可能な実験環境を構築できる点で、学術的にも極めて高い価値を持つ。
1.2 本報告書の目的と対象
本報告書では、この潮流を象徴するプラットフォームとして、ししかわ(石川真也)氏によって開発・公開された「スタックチャン(Stack-chan)」に焦点を当てる 。スタックチャンは、汎用マイコンモジュール「M5Stack」をコアとした掌サイズのコミュニケーションロボットであり、その設計図、ファームウェア、筐体データのすべてがオープンソース(Apache 2.0ライセンス等)として公開されている 。
本報告書の目的は、単なるメイカー・ムーブメントの成果物としてのスタックチャンではなく、「学術研究のための実験装置」としてのスタックチャンの有効性を、既存の研究事例、技術的特性、教育的応用、そしてコミュニティの動向に基づき網羅的に分析することである。特に、呼吸情報を用いた対話制御に関する最新の研究成果 や、日本ロボット学会が主導する教育プログラム を詳細に紐解き、安価でカスタマイズ可能なロボットがいかにしてHRI研究の「民主化」と「高度化」を同時に達成しつつあるかを論証する。
2. Stack-chanのシステムアーキテクチャとHRI研究への適合性
2.1 M5Stackエコシステムによるハードウェアのモジュール化
HRI研究において、ロボットのハードウェア構成は実験の自由度を規定する。スタックチャンの最大の特徴は、頭脳部分に中国・深センのM5Stack社が開発した「M5Stack」シリーズを採用している点にある 。M5Stackは、ESP32マイコンを中心に、Wi-Fi/Bluetooth通信モジュール、LCDディスプレイ、ボタン、スピーカー、バッテリー、そして豊富なGPIO(General Purpose Input/Output)ピンを5cm角のコンパクトな筐体にパッケージングした開発モジュールである。
| 構成要素 | 仕様・特徴 | HRI研究における利点 | 参照 |
|---|---|---|---|
| 計算コア | ESP32 (Dual Core, 240MHz) | 低消費電力かつWi-Fi/BLE通信が可能。IoT連携やクラウドAI利用に最適。 | |
| ディスプレイ | 320x240 カラーLCD | 視線、表情、感情のアニメーション表示が可能。ノンバーバル情報の提示に不可欠。 | |
| 通信機能 | Wi-Fi, Bluetooth, ESP-NOW | 外部センサー(呼吸センサ等)やPC、他のロボットとのリアルタイム通信が容易。 | |
| 拡張性 | Groveコネクタ, GPIO | 視覚センサ(UnitV2等)や環境センサをプラグアンドプレイで追加可能。 | |
| アクチュエータ | シリアルサーボモータ (x2) | パン(水平)・チルト(垂直)の2軸制御により、視線移動や頷き動作を実現。 | |
学術的観点から見ると、この構成は「センサーとアクチュエータの統合コスト」を劇的に低下させる。従来、ロボットの表情提示用ディスプレイと首振り機構、音声処理系を統合するには複雑な配線と制御回路の設計が必要であったが、スタックチャンではM5Stackのスタック構造と専用基板により、これらをケーブルレスに近い形で統合できる 。これにより、研究者はハードウェアのデバッグではなく、インタラクションのデザインそのものにリソースを集中させることが可能となる。
2.2 JavaScript (Moddable SDK) によるソフトウェア制御の革新
組み込みロボットの制御には伝統的にC/C++やPython(MicroPython)が用いられてきたが、スタックチャンはJavaScript(TypeScript)を採用している点が特筆される 。これは、組み込み機器向けに最適化されたJavaScriptエンジンである「Moddable SDK」の採用によるものである。
この選択は、HRI研究に以下の革新をもたらしている:
Web技術との親和性: 多くのHRI研究では、ロボットの遠隔操作インターフェースやウィザード・オブ・オズ(WoZ)法のための操作画面をWebブラウザ上で構築する。ロボットのファームウェア自体がJavaScriptで記述されていることで、フロントエンド(操作画面)とバックエンド(ロボット制御)の間でデータ構造やロジックを共有しやすく、開発効率が向上する 。
非同期イベント処理: 対話システムは、ユーザの発話検出、クラウドAIからの応答待ち、サーボの動作完了待ちなど、多数の非同期イベントを扱う必要がある。JavaScriptのPromise/Async-Await構文は、こうしたイベント駆動型の振る舞いを記述するのに極めて適しており、インタラクションのタイミング制御(Turn-taking)の実装を容易にする 。
3. アバター表現の抽象化: 開発者の石川氏により提供されているライブラリ m5stack-avatar は、ディスプレイ上の顔描画(目パチ、口パク、視線移動)を抽象化している 。研究者は「右を見る」「笑う」といった高レベルなコマンドを記述するだけでよく、ピクセル単位の描画処理から解放される。
2.3 "Kawaii"のデザイン論とミニマルな身体性
スタックチャンのデザインコンセプトである「スーパーカワイイ(Super-Kawaii)」は、HRIにおける「不気味の谷(Uncanny Valley)」問題を回避するための工学的解として解釈できる 。
人間酷似型のアンドロイドとは異なり、デフォルメされたキャラクター的な外見と、掌に乗るサイズ感は、ユーザに対して「高度な知性や完璧な動作」を期待させない効果(期待値の調整)を持つ。これにより、音声認識のミスや動作の遅延が許容されやすくなり、ユーザはロボットに対して保護的な感情(Prosocial behavior)を抱きやすくなる。
また、パン・チルトの2軸のみという「最小限の身体性(Minimal Embodiment)」は、複雑なジェスチャーができない制約であると同時に、視線と首の動きだけで意図を伝える「視線誘導(Gaze Cueing)」や「共同注意(Joint Attention)」の純粋な実験環境を提供する 。余計な自由度がないことは、実験条件の統制という観点からはむしろ利点となり得るのである。
3. ケーススタディ:呼吸情報に基づく対話制御研究の深層
スタックチャンが実際に高度な学術研究のプラットフォームとして機能していることを示す最も顕著な例として、Obi & Funakoshi (2025) による研究「Breathe and Speak Attentively: Implementing Respiratory Awareness Into Conversational Robots」 を詳細に分析する。本研究は、IEEE Robotics and Automation Letters (RA-L) という権威ある論文誌に採択されており、スタックチャンを用いた研究がトップレベルの学術コミュニティで評価された証左である。
3.1 研究の背景:対話における「呼吸」の役割
人間同士の対話において、話者交代(ターン・テイキング)は極めてスムーズに行われる。この調整メカニズムの一つとして、相手の呼吸(吸気・呼気)の観察がある。人は発話前に大きく息を吸う(吸気)ため、対話相手はこの生理的シグナルを「発話意図の開始」として無意識に読み取り、自身の発話を控えることで衝突(Speech Collision)を回避している 。
しかし、従来の対話ロボットの多くは、マイクに入力された音声信号の有無(VAD: Voice Activity Detection)のみをトリガーとしており、相手が息を吸った瞬間(=音声が出る直前)に発話を開始してしまい、衝突が発生するという課題があった。
3.2 スタックチャンを用いた実験システムの構築
Obiらは、この課題を解決するために、ユーザの呼吸状態を認識し、かつロボット自身も擬似的な呼吸動作を行うシステムを構築した。この実験の核となるエージェントとしてスタックチャンが選定された 。
3.2.1 実装機能の詳細
スピーチ衝突回避 (SCA: Speech Collision Avoidance):
センシング: ユーザの胸部に装着したベルト型呼吸センサ、またはカメラ映像からの非接触推定により呼吸波形を取得 。
制御ロジック: ユーザが「吸気(Inspiration)」フェーズにある場合、ロボットは発話準備状態にあると判断し、自身の発話ターンが回ってきていても発話を待機(Hold)する。ユーザが「呼気(Expiration)」フェーズ、かつ発話していないタイミングでのみロボットが発話を開始する 。
擬似呼吸提示 (PRP: Pseudo-Respiration Presentation):
身体表現: ロボットが「生きている」感覚を強化し、ユーザとのリズム同調(Entrainment)を促すため、スタックチャンのサーボモータ(ピッチ軸)を用いて筐体全体を周期的に上下させる動作を実装した 。
同期: ロボットの発話タイミングに合わせて、吸気(体を上げる)→発話(呼気と共に体を下げる)という生物学的に自然な動作プロファイルを生成した。
3.2.2 実験結果とスタックチャンの貢献
26名の参加者を対象とした実験の結果、SCAとPRPを実装した条件では、従来手法と比較して発話衝突の発生率が有意に低下し、ユーザの主観評価(話しやすさ、ロボットの生物らしさ)が向上したことが確認された 。
ここでのスタックチャンの貢献は以下の通りである:
リアルタイム制御: 呼吸という絶えず変化する生体信号に対し、遅延なくサーボ動作を同期させる高い応答性が実証された。
身体の拡張性: デフォルトの機能にはない「呼吸動作」を、サーボの微細な制御プログラムを追加するだけで実現できた。これはオープンソース・ファームウェアの柔軟性によるものである。
心理的効果: 掌サイズのロボットが「呼吸」するという振る舞いは、ユーザに対し強い生命感(Animacy)を喚起し、HRIにおける「アニマシー知覚」の研究プラットフォームとしての有用性を示した。
4. 教育ツールとしての展開と社会的実装
スタックチャンは、先端研究だけでなく、次世代の研究者やエンジニアを育成するための教育ツールとしても重要な役割を果たしている。日本ロボット学会(RSJ)の取り組みはその好例である。
4.1 日本ロボット学会による「Gender Junior」イベント
日本ロボット学会ダイバーシティ推進委員会は、女子中高生を対象としたキャリアパス支援イベントとして「コミュニケーションロボット『スタックチャン』を作って動かしてみよう」を継続的に開催している 。
4.1.1 カリキュラムの構成
対象: 中学生および高校生(女子生徒中心) 。
場所: 豊島岡女子学園中学校高等学校などの教育機関 。
内容:
ハードウェア組立: キットを用いて物理的にロボットを組み上げる。ドライバやネジを用いた工作を通じて、ロボットの身体構造を理解する。
プログラミング体験: C言語またはJavaScriptを用いて、サーボモータの制御や画面描画のロジックを記述する 。
AI体験: 「AIスタックチャン」として、ChatGPT等の生成AIと連携させ、ロボットと自然言語で対話する体験を提供する 。
4.1.2 循環型教育モデル(TA制度)
特筆すべきは、先に講習を受けた高校生が、続く中学生向け講座のTA(ティーチング・アシスタント)として指導側に回るという「循環型」の教育モデルである 。
スタックチャンは教材として「適度な複雑さ」を持っている。レゴブロックほど簡単すぎず、産業用ロボットほど難解ではない。自分が苦労して組み立てた経験があるからこそ、TAは後輩に対して的確なアドバイスができ、教えることを通じて自身の理解も深化する。このプロセスは、工学教育における「ピア・ラーニング(Peer Learning)」の実践例として評価できる。
4.2 「作る」ことから生まれるHRIの理解
従来のロボット教育では、完成品のロボットを動かすだけの「プログラミング教育」が主であった。しかし、スタックチャンは「作る」プロセスを包含している。
不完全さの受容: 自分で組み立てたロボットがうまく動かない(サーボが震える、Wi-Fiが繋がらない)という経験を通じて、実世界におけるロボット工学の難しさ(ノイズ、物理的制約)を肌で感じる。
愛着の形成: 既製品を購入するのではなく、自分の手で命を吹き込む(ファームウェアを書き込む)過程が、ロボットへの強い愛着(IKEA効果)を生み出し、学習意欲を持続させる 。
RT Corporationなどの企業が、この教育的価値を認め、組み立てキットの販売やサポートを行っていることも、エコシステムの持続可能性を高めている要因である 。
5. コミュニティ主導の研究開発と機能拡張
学術界(アカデミア)と在野の開発者コミュニティ(メイカーズ)の境界が曖昧になりつつある現状において、スタックチャンはその結節点となっている。
5.1 開発者・石川真也氏と「研究の民主化」
開発者の石川真也(meganetaaan)氏は、元々Honda Research Institute Japan(HRI-JP)での対話システム研究や、RT Corporationでの協働ロボット開発に従事していた経歴を持つ 。学生時代には魚型ロボットやヒューマノイドの歩行制御を研究しており 、アカデミックなロボット工学の素養がスタックチャンの設計思想(拡張性、標準化、オープン性)に色濃く反映されている。
石川氏は「ロボットを一部の研究者や企業のものだけでなく、全ての人の手に届くものにする」というビジョンを掲げており 、これはHRI研究の「民主化(Democratization)」と呼ぶにふさわしい動きである。
5.2 派生プロジェクトと機能拡張(Mods)
GitHubやHackster.io、SNS上では、スタックチャンをベースとした多数の派生プロジェクト(Mod)が公開されており、これらはそのまま新たな研究テーマとなり得るポテンシャルを秘めている。
| プロジェクト名 | 特徴・拡張内容 | 学術的・技術的意義 | 参照 |
|---|---|---|---|
| So-Arm-Chan | 双腕マニピュレータの付加 | ロボットアーム(LeRobot等)と結合し、ジェスチャーや物体操作能力を付与。社会的対話と物理作業の並行処理研究へ応用可能。 | |
| AI Stack-chan | LLM (GPT-4) 統合 | OpenAI API等を介した高度な雑談対話。感情分析結果に基づく表情のリアルタイム変化。 | |
| M5Stack-Avatar | 表情ライブラリ | 顔のパーツ(目、口)のパラメトリックな制御。感情表現の心理学的評価実験における刺激生成ツールとして機能。 | |
| UnitV2連携 | 視覚機能の強化 | M5Stack UnitV2(AIカメラ)を用いた顔追従(Face Tracking)。共同注意や視線接触(Eye Contact)の研究基盤。 | |
特に「So-Arm-Chan」の事例では、Hugging Faceの「LeRobot」のような最新のAIロボティクス技術を、ホビイストが自宅レベルで実装・検証している 。これは、最先端のHRI技術が、高価なラボ設備を必要とせずとも検証可能になりつつあることを示唆している。
6. 関連ロボットとの比較分析
HRI研究において利用される他のオープンソースまたは低価格ロボットとスタックチャンを比較することで、その立ち位置を明確にする。
| ロボット名 | 特徴 | ライセンス | HRI研究での主な用途 | Stack-chanとの差異 | 参照 |
|---|---|---|---|---|---|
| Stack-chan | M5Stackベース、掌サイズ、JS駆動 | Apache 2.0 | 対話、非言語情報(視線)、教育、IoT連携 | 最小構成・低コスト。Web技術者親和性が高い。 | |
| Cozmars | Cozmoのオープンソース版クローン | CC BY-NC-SA | 移動、物体操作、教育 | 移動機構(キャタピラ)を持つ。Raspberry Pi Zero等を使用。 | |
| Reachy | 上半身ヒューマノイド、高自由度 | Apache 2.0 | 物体操作、遠隔操作、複雑なジェスチャー | 高機能だが大型・高価。本格的なマニピュレーション研究向け。 | |
| PLEN | 小型ヒューマノイド | オープンソース | 全身運動、歩行制御 | 二足歩行が可能。全身運動による表現力。 | - |
比較から明らかなように、スタックチャンは「移動機能や腕を持たない」代わりに、「対話と表情(フェイシャル・キュー)」に特化し、かつ圧倒的な低コストとカスタマイズ性を実現している点(ニッチ)で独自性を持っている。移動や作業が不要な「デスクトップ・コンパニオン」としてのHRI研究において、最適な選択肢となっている。
7. 議論:スタックチャンがもたらす学術的・社会的インパクト
7.1 再現性の危機(Replication Crisis)への処方箋
心理学やHRI分野では、実験結果の再現性が問題視されることがある。特定のラボでしか動かない特殊なロボットを用いた実験は、追試が困難である。
ハードウェアからソフトウェアまで完全にオープンであり、部品もAmazonやAliExpressで誰でも入手可能なM5Stackを使用しているスタックチャンは、この問題に対する強力なソリューションとなる。論文中で「GitHubのリポジトリXのコミットYを使用した」と記述すれば、世界中のどの研究者も物理的に全く同じエージェントを再現し、実験条件を厳密に統制できる。これは科学としてのHRI研究の質を底上げする。
7.2 多個体インタラクション(Swarm HRI)の可能性
従来のHRI研究は、ロボットが高価(数十万〜数百万円)であるため、ロボット1台対人間1人(1-on-1)の実験が主流であった。数千円〜数万円で構築可能なスタックチャンは、10台、20台といった多数のロボットを用いた実験(N-on-1, N-on-N)を現実的なものにする。
例えば、教室内の全生徒の机に1台ずつロボットを配置し、個別の学習支援を行わせる実験や、多数のロボットが協調して人間の意思決定に影響を与える実験など、「群(Swarm)としての社会的影響」を探る新たな研究領域が開拓されつつある。
7.3 生成AIの身体(Embodiment)としての標準化
LLM(大規模言語モデル)の進化により、AIの「知能」は飛躍的に向上したが、それを物理世界に表出させる「身体」の標準機はまだ定まっていない。スタックチャンは、M5StackのWi-Fi機能を活かしてクラウド上のLLMと直結できるため、「AIの顔」としてのデファクトスタンダードになり得るポテンシャルを持つ。
「Breathe and Speak Attentively」の研究 で示されたように、LLMの生成テキストに合わせて、呼吸や視線といった非言語情報を適切に付与することで、AIの実在感(Presence)や説得力をいかに高めるかという研究は、今後数年で爆発的に増加すると予測される。
8. 結論
本調査の結果、スタックチャンは単なる「カワイイ電子工作キット」の枠を超え、学術的なHRI研究における強力かつ柔軟なプラットフォームとしての地位を確立しつつあることが明らかになった。
学術的貢献: Obi & Funakoshi (2025) の研究は、スタックチャンがミリ秒単位のリアルタイム制御を要する生体信号連動型の実験に耐えうる性能を持ち、トップカンファレンスレベルの研究成果創出に寄与できることを証明した 。
教育的貢献: 日本ロボット学会のイベント事例は、組み立てからAIプログラミングまでを包括的に学べる教材としての完成度の高さと、ジェンダーギャップ解消などの社会的課題解決への応用可能性を示している 。
コミュニティの力: 開発者の石川氏を中心としたオープンソース・コミュニティは、次々と新しい機能や拡張(Mods)を生み出しており、研究者がゼロから開発するコストを劇的に下げている 。
M5Stackという汎用ハードウェアの上に、Web技術(JavaScript)とHRIの知見(Kawaiiデザイン)を融合させたスタックチャンは、ロボット研究を「特権的な実験室」から解放し、より広く多様な文脈での人間とロボットの共生関係を探究するための触媒として機能している。今後、AI技術との融合がさらに進む中で、身体性を持つエージェントの標準機として、その学術的利用価値はますます高まっていくと結論付けられる。
主要参考文献(出典ID)
本報告書は以下の資料に基づき作成された。
****: Stack-chan Project Page (Hackaday.io) - 定義、システム構成、ビジョン
****: Awesome Social Robots - オープンソースロボットのリスト比較
****: So-Arm-Chan (Hackster.io) - アーム拡張、AI研究の民主化
****: RT Corporation Logs - キット販売、RT社のミッション
****: GitHub (meganetaaan) - 開発者プロフィール、Moddable SDK、アバターライブラリ
****: RSJ Gender/Junior Event - 日本ロボット学会による教育イベント詳細、TA制度
: Obi & Funakoshi (2025) "Breathe and Speak Attentively" (IEEE RAL) - 呼吸情報を用いたHRI研究、実験詳細
****: SIGDIAL/ACL Anthology - 対話ロボットの設計、スピーチ衝突回避理論
****: Hackaday Logs - 技術詳細(視線制御、UnitV2連携)
****: Interaction 2025 Proceedings - スタックチャンの引用事例
****: Interaction 2023 Proceedings - M5Stackを用いたコミュニケーションロボットのハードウェア構成
****: Shinya Ishikawa Profile - 開発者の経歴(HRI研究、RT Corp、Honda)
: HAI Symposium Program - 国内HRI会議でのプレゼンス
****: Hackaday Description - "Kawaii"デザインとLifelike behaviors
: Finger Robotic control using M5Stack - M5Stackの技術的仕様、MQTT制御