じんもんこん2025にて発表しました「句碑データ利活用に向けた公開基盤の設計と初期実装」(2025-12-13)
12月13日・14日に九州大学 伊都キャンパスで開催された「じんもんこん2025」にて発表を行いましたので、そのご報告をさせていただきます。 発表タイトルは「句碑データ利活用に向けた公開基盤の設計と初期実装」です。
https://gyazo.com/86145fb4d6f29749424aa4300636555bhttps://gyazo.com/b6959e61d53bfe9f03d4612d9fe12913
研究概要
簡潔に説明しますと、「全国に点在する句碑の情報をデータベース化し、多様な方法を用いて公開することによって、句碑の周知や活用を促進する」という方針の下、研究を行っています。
句碑は俳句が刻まれた石碑であり、以下の写真のようなものが全国各地に建立されています。多くは、俳人や俳句とゆかりのある場所にひっそりと立っており、その地域の歴史や文化、風景を伝えています。
https://gyazo.com/e3e17476e53319b705221e81043eabf6
一方で、以下の課題があります。
行政も把握できていない句碑が存在する
日本全国の句碑情報が整備されていない
そこで、利活用できるような公開基盤を実装し、観光利用や教育・研究活用などができるよう、以下の取り組みを行いました。
Ⅰ. データベース構築
Ⅱ. データの整備と格納
Ⅲ. データ公開
Ⅳ. 可視化アプリケーション
Ⅴ. LLMを用いたデータ利活用
このように羅列しただけでは、何をしているのかが伝わりにくいと思います。
そこで、今回は実装内容について具体的に説明します。
https://gyazo.com/f033e4507cf4c99e41e808cea5cb4476
hr.icon
Ⅰ. データベース構築
https://gyazo.com/959e46adfbdc88823fbd0681e374d748
まず、データ構造について説明します。
謂わば、目的意識が不明瞭な「網羅的に包括できれば問題ないだろう」という前提で作られた自分本位なデータ構造となっていました。
しかし、この研究は句碑の情報を整備することを目的として行っているため、これでは整備どころか複雑化させているようにも思えます。オリジナルのデータを作るにしても、何のためのデータなのかを意識する必要があります。
そこで、CIDOC CRMという出来事を中心に時間・場所・人物・物の関係性を表現できる設計を概念モデルに用いて、データ構造を更新しました。これで句碑データの構造は明確になりましたが、これだけでは実際の利活用に十分とは言えません。
利活用を考慮する場合、誰でも使いやすい形で公開することが重要であり、連携を前提としたデータ構造にすべきであると考えます。そこで、HuTimeやIMIといった外部連携可能なデータ項目を用意しました。
これにより、データ構造が整理され、他データやシステムとの連携を考慮した利活用可能な基盤を設計できました。
なお、このデータも今後の運用や利活用の状況に応じて、更なる正規化を進めていく予定です。
hr.icon
Ⅱ. データの整備と格納
https://gyazo.com/78e1b12f32e55cd1c465a1fdbef4c1db
https://gyazo.com/cb51e3c0662bb599fe01197b95a6b364
データの整備と格納について説明します。
位置情報、俳人情報、写真、背景情報などを整理し、初期データとして三重県と石川県の句碑402件を登録しました。
また、全国の自治体が公開している句碑情報をデータベースに追加し、現在は688件のデータを格納しています。
手法としては単純です。
自治体から公開されている句碑の情報をひたすら探して、一つずつCSVやSQLにまとめた後、データベースに格納するという流れです。
しかし、CSVデータを公開している自治体は非常に少なく、観光地としての紹介や地域の歴史を伝えるようなWebサイトで掲示されているものがほとんどでした。整備されていないことは事前調査で把握済みですので、当たり前と言えば当たり前ですね。
結果的に、情報を確認しながら一つずつ手入力する方法を取ることにしました。
中には情報が不足しているものや、緯度経度が示されていない句碑情報などの、データベースに格納しづらいものもありました。これらに関しては他出典の情報やGoogle Mapを用いて事実確認しつつ、格納しました。
一方で、満足できる情報がなかったため格納しなかったものもありました。
今後はこのような句碑も格納できるように、調査やデータ構造の改良が必要だと理解しました。
hr.icon
Ⅲ. データ公開
https://gyazo.com/1bcd177570a50ca0ad30977a1e7f1c0ehttps://gyazo.com/d6c7079d2d1ab46179a63bfb433e68d3
外部連携のためのデータ項目を用意しても、データベースを公開できる基盤の実装や、実際に連携できるような公開形式が存在しないと意味がありません。そこで本研究ではWeb APIとLinked Open Dataを用いています。
Web APIを簡潔に説明すると、Web上でプログラム同士がやり取りするための規則のことです。
これにより、以下のようなことが可能になります。
アプリケーションやWebサイトに情報を表示する
天気や地図、記事内容などの外部データを取得する
他システムとの連携
本記事では概要に止めますが、気になった方は上記のリンク先や各種用語を検索いただくことで、より詳細な内容をご確認いただけます。
この2種類の公開方法によって、開発などに用いる実用的なシステム連携と、意味的に理解・再利用しやすい形でのデータ連携の両方が実現できます。
hr.icon
Ⅳ. 可視化アプリケーション
https://gyazo.com/a385f1b53e8f59d54495db71c95f59fbhttps://gyazo.com/48ff004285b6c6a37f8314b8203346fb
https://gyazo.com/39a7cc01602de85f9fb85b6868523d62https://gyazo.com/dc51d7ff520d0b3de000ae497f0613f9
Web APIを提供していても、その使用方法や提供されているAPIの内容がわからなければ、十分に活用することは困難です。
そこで、本研究ではAPIの仕様書としてAPIドキュメントを作成しました。
現時点では、更新したデータが反映されていないため、実用的とは言えない状態ですが、今後は内容を更新し、APIの仕様や使い方を理解できるように整備していく予定です。
APIによるデータ提供に加え、地理情報として扱いやすい形式での公開も重要であると考え、本研究ではGeoJSONも実装しました。
GeoJSONとは、様々な種類の地理情報を共通の形式で表現したり、やり取りしたりするためのデータ形式です(GEOJSON)。 これを用いることで、以下のようなことが可能になります。
地点や範囲などの地理情報を地図上に可視化する
説明文や位置情報などのデータをまとめて扱う
異なる地図サービスやアプリケーション間で共通形式としてデータを利用する
こちらも実装しましたが、データ構造の更新後に十分な検証が行えておらず、現時点では改善の余地が残っています。
句碑の周知を目的とした重要な公開基盤であるWebアプリは現在、最低限の機能を用意しており、地図表示や一覧表示、検索機能に加えて、俳人別の史料、文献検索といった外部サービスとの連携も可能となっています。
こちらは、今後も頻繁にアップデートしていきます。
hr.icon
Ⅴ. LLMを用いたデータ利活用
https://gyazo.com/451724abf60defab612f6df076da6883
https://gyazo.com/56ad720708e711220e74a2c679048b12
MCPサーバを導入することによって、以下の画像左のような曖昧な回答や適切とは言えない回答を、画像右のように正確な情報で表示することができます。これは、Web検索や事前知識ではなく、データベースから直接情報を得ているためです。
https://gyazo.com/c8621ec673d89b0b9b1f4024a45093f2 https://gyazo.com/809d08c34fc7af2eb9dbbf55cd7464f0
このようなMCPサーバを試験的に実装していましたが、内部動作に関する内容や包括的な知識が不十分であったため、ただ他の取り組みを参考にしただけとなっていました。しかし、概要論文のレビューにおいて指摘いただけたことで、MCPサーバの設計と評価を改めて見直すことにしました。
また、丁度そのタイミングでデジタル庁がJグランツのMCPサーバを公開したことに関しても、大きな影響を受けました。特に概要を示した記事からツール設計のいろはを学び、書籍で知識を深め、自分のMCPサーバにも取り込むことができました。 その結果、乱雑になっていたツールを再設計することができ、明らかに回答の質が良くなったように感じられたため、検証や評価を行うことができました。検証や評価に関しては、参照可能なMCPサーバの評価に関する先行研究・先行事例がなかったため、自分で考えて行う必要がありました。
結果的に、利用タスクに対応した84回の試行を通じて検証を行い、評価しました。この評価は、評価設計や検証の不足といった課題は残りますが、初期的な検証として一定の知見を得ることはできたと考えています。
具体的な内容は論文に記載したとおりですが、簡単に結果だけを示すとMCPサーバの有用性を確認することができました。
一方で、全てのケースにおいて回答の精度が向上するかは議論の余地があると考えています。
例えば、以下の例です。
https://gyazo.com/babbd6e71993d415d564bb262e7c8d05 https://gyazo.com/fbeeebef759881c7d3e1b832cb14d136
同じ質問で、左が事前知識のみ、右がMCPサーバ利用時の結果です。
具体性を鑑みると右の方が充実していますが、左は一般論として必要十分な情報が出揃っているようにも思えます。実際に、これらの得点は左が4点、右が5点満点です。
この結果から、質問内容によってはMCPサーバを用いる必要がない場合も存在することが考えられます。
また、今後Ⅳで取り上げたWebアプリの充実化やAIモデルの進展によって、句碑の内容を調査することに関してはMCPサーバの有無にかかわらず、遜色のない回答を得られるのではないかと仮説を立てています。
提示した例のように、現在は定性的な分析を行っていますが、それだけではなく定量的な分析を行いつつ、多様な視点から改めて定性的な分析を行う必要があると考えています。また、ユーザによる利用を通じた客観的データを収集することも必要であると考えています。
hr.icon
感想・反省
今回が2回目の学会発表でした。
やはり、外部での発表はあまり緊張しないようで、比較的リラックスして発表することができました。
発表内容も私の興味がある分野に合致しており、あっという間に時間が過ぎるほど楽しく感じられました。
デモ発表にもかかわらず、デモの紹介はあまりできませんでしたが、その分、ポスターや研究内容に重点を置いて話すことができたと思います。実際に、私の知らない知識を学ぶことができたり、議論やアドバイスを通して、この研究の価値を再発見することができました。
本学会も全体的に和やかな雰囲気で、意見を交換し合うような建設的な議論ができる場であり、学べることも多く、非常に有意義な時間を過ごすことができました。
一方で、自分がいかに未熟で、稚拙な考え方であったのかを自覚する良い機会になりました。
この学会に参加し、発表できたことは自分にとって後々大きな分岐点であったと言えるような経験になったと思います。
というよりも、大きな分岐点であったと言えるようになりたいと思います。
ここまでの研究ができたのは、じんもんこん2025の概要論文に対して、非常に貴重かつ的確なコメントを下さった査読者様のおかげです。
また、じんもんこんで発表させていただける機会をいただけたこと、自治体において句碑に関する情報を公開してくださっていること、さらに発表やコミュニケーションの機会で様々なアドバイス・指摘・意見をいただけたことなど、本研究を進める上で多くの支えをいただきました。
この場を借りて、多くの方々に感謝いたします。
本学会で関わった方々にも、感謝申し上げます。
特に、CKANについて教えてくださった国立情報学研究所ご所属の方、Wikidataについて教えてくださった東京大学ご所属の大学院生の方、社会人博士に関することやコミュニケーションのあり方について学ばせていただいた社会人博士のお二方には、心より感謝申し上げます。
次に何らかの機会でお会いすることができた場合、より成長した姿をお見せできればと存じます。
研究は今後も継続していきたいと考えています。
あわせて、この取り組みについても引き続き進めていき、句碑をはじめとする人文学研究に少しでも寄与できればと存じます。