観光情報学会第26回研究発表会にて発表しました「生成AIを用いた複数オープンデータの統合補完システムの試作」(2024-11-09)
観光情報学会第26回研究発表会にて発表しました「生成AIを用いた複数オープンデータの統合補完システムの試作」(2024-11-09) 初めまして。愛知工業大学小栗研究室4年の小野田一輝です。 11月9日に開催されました観光情報学会第26回研究発表会にて研究発表をさせていただいたのでそのご報告をさせていただきます。
https://gyazo.com/efaefa046945e85dbad54895b9e860d8https://gyazo.com/bcae2fdac800e84500002e518adb3113
研究概要
"""
国、地方公共団体及び事業者が保有する官民データのうち、国民誰もがインターネット等を通じて容易に利用(加工、編集、再配布等)できるよう、次のいずれの項目にも該当する形で公開されたデータをオープンデータと定義する。
営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの
機械判読に適したもの
無償で利用できるもの
"""
と定義されています。日本国内では東日本大震災を契機に取り組みが活発化されました。オープンデータの取り組みを活発化するメリットとして情報公開による透明性の向上、オープンデータを活用した新たなビジネスモデルによる経済の活性化、情報取得にかかるコストの削減などが挙げられます。
政府の取り組みもあり令和6年8月時点では約85%の自治体(人口20万人以上の自治体では100%)がオープンデータへ取り組んでいます。
私はそのようなオープンデータを複数組み合わせて活用することにより充実したサービスを提供できると考えています。
しかし、オープンデータの利用には大きな課題があります。それはフォーマットに統一性がなく多種多様なデータ様式であることです。政府によるフォーマットが統一が行われていないため自治体独自のフォーマットによる公開がほとんどとなっています。現状ではそういったデータを扱うときは編集作業が必要になり、手間と時間のかかる作業となっています。
https://gyazo.com/8004c656869377eee73635b9a40e469e
そこで私はオープンデータを活用したシステム開発の負担を減らすべく、利用者の求めるデータ様式に複数のオープンデータを統合し不足している項目は補完を行うシステムを提案しました。
https://gyazo.com/9627282c8a1d4cd547bfc122417a1740
システムの概要
システムの構成図になります。このシステムの大きな特徴は生成AIによる解析を活用することで柔軟性を高め、正確性の求められる処理はローカルのシステムが行うことで生成AIのデメリットであるハルシネーション(間違った情報を正しいかのように出力する現象)のリスクを回避するというところです。
https://gyazo.com/c047eef13d5d18766a2678c0408e7d98
システムの各機能と動作手順はこのようになっています。
項目の解析
オープンデータの項目についての解析を行います。作成されるプロンプトは補完機能を使用して取り出すことのできる項目も解析するため作成してある補完機能によって変化します。
読み替えの解析
項目の解析結果から利用者が選択した項目に値する項目名を各オープンデータから読み替えます。このとき補完処理を行うかどうかの判断も行います。ここで作成されるプロンプトは項目の解析同様補完機能により変化する他、選択する項目についても変化します。
統合・補完処理
読み替えの結果を元にデータの編集作業を行います。読み替えの解析結果に補完処理の有無も生成されるためシステムがそれを読み取り補完機能を呼び出します。補完処理が完了すると選択した項目を統合しファイルに出力します。出力されるファイルは統合補完処理を行ったファイル、読み替えについて記述したファイル、補完処理のみを行った各ファイルの3種類です。
※補完処理について
補完処理はPythonスクリプトで作成されており、後から機能追加が可能になっています。この補完機能内の初期設定関数にプロンプトを設定しておくことで各解析時に処理を追加することができるようになっています。
https://gyazo.com/5073dcfe6ccb18e34517e5b287f6db63https://gyazo.com/bdeea4c9bf579792ad7385b4d3c2aa90https://gyazo.com/066db01a65d5f41ce3596e513e08aa55
動作実験
実際に静岡県伊東市の文化財、観光施設、観光イベントのデータを使用して動作実験を行いました。
伊東市内の観光情報を得る地図アプリ作成のためのデータ編集を想定し、各オープンデータから名称、住所、緯度、経度、郵便番号の項目を求めるとして統合補完処理を行います。
各データの特徴は以下のようになっています。
伊東市内文化財一覧
住所項目において都道府県名が記載されていない
伊東市内観光イベント一覧
名称項目において項目名が「イベント名」になっている
3つ全てに共通の特徴
住所項目(青色)、緯度経度項目(緑色)の列番号が違う
郵便番号項目がない
https://gyazo.com/c4e4243e8e301848cbc70c303bb9682f
この3つのオープンデータをシステムによって1つのファイルへと統合する動作実験を行います。
以下がその結果になります。
https://gyazo.com/36784940d1ae2a90dacdb15707fa04cb
3つすべてのオープンデータにおいて不足していた郵便番号項目は補完機能の逆ジオコーディングによって補完を行いました。処理結果を検証した結果郵便番号が間違って出力されている箇所はなく正しく補完されていました。しかし、9件のデータにおいて空欄が発生しており、原因として元のデータに位置情報が未記入ということが確認されました。
今後の展望
本研究の展望として以下を考えています。
システムの検証
正確性の検証
有効性の検証
補完機能の追加実装
システムの検証については生成AIによる読み替えの正確性の検証や手作業によるデータ編集をした時と比較し有効性の検証が必要だと考えています。
補完機能の追加実装については現段階で
項目の分割
以上の4機能が実装できていますが追加で2~3機能追加実装することを目標としています。
システムの展望としてはオープンデータだけでなく、外部APIやローカルのDBと接続して統合・補完処理を行うことを最終的なゴールと考えています。
https://gyazo.com/ef2aea3437019bc3ecb3fab12e62136a
感想
今回学会での発表は初めてさせていただいたのですが多くの方から質問をいただき今後の研究に非常に参考になる意見をいただくことができました。他の方の研究発表でも勉強になるものが多く、参加して非常に良かったと感じました。
発表自体はまだ慣れていない点が多く、話し方やスライドの構成がまだまだですが今回の発表を元に卒業研究発表会に向けて改良していきたいと思います。
今回の開催地が静岡県熱海市で初めて訪れたのですがビーチから見える景色が非常に綺麗でした。また昼食で食べた日本一分厚いカツ丼がとてもおいしかったです。
https://gyazo.com/d45deb73dcf29aff9f7d80daf0cea78bhttps://gyazo.com/aa62a304de1d255d3a1db3055483736d