YuisekinAI-2.0-Geospatial (draft)
概要
パラメーターサイズ0.5B、1B、3Bの、高性能な生成AI基盤モデルを開発し、公開する
やらないこと
マルチモーダル生成AI基盤モデルの開発
マルチモーダル生成AI基盤モデルの実用的なオープンソースアーキテクチャおよびデータセットが2024年12月時点ではないため
ソフトウェアアーキテクチャ
YuisekinAI2およびYuisekinAI2-Geospatialプロジェクト自体も、Open Source Initiativeが定めるオープンソースライセンスに準拠したライセンスに準拠して公開し、透明性と再利用性を確保し、コミュニティによる貢献と改善を促進する
データセット
YuisekinAI2およびYuisekinAI2-Geospatialのトレーニングには、オープンデータライセンスに基づいたデータセット、もしくは、オープンソースライセンスに準ずるライセンスの下で提供される生成AIシステムが出力した合成データセットのみを使用する
トレーニングパラメーター
モデル重み
過去の経緯と実績
生成AIが自然言語指示に基づいて地理空間情報を探索するエージェントアプリケーション
1.1Bの生成AI基盤モデルであるTinyLlamaを、短期間で100個以上ファインチューニングした ただし、TinyLlamaおよびファインチューニング時のデータセットがOSAIDに準拠しているか曖昧
Mistralアーキテクチャに基づいてフルスクラッチでトークナイザー学習、事前学習された、1.1Bパラメーターの生成AI基盤モデル Mistralアーキテクチャおよびトークナイザー学習、事前学習、ファインチューニング時のデータセットがOSAIDに準拠しているか曖昧なので、完全に作り直したい
地理空間情報処理分野における、LLMによって生成された初の合成データセット
この合成データセットを生み出したノウハウを活かし、さらに大規模に発展させて、地理空間情報処理分野で有用な合成データセットをたくさん生み出したい
マルチモーダル生成AIを人工衛星データに応用したエージェントアプリケーション
目標
モデル開発
パラメーターサイズが0.5B、1B、3Bの3種類の高性能な生成AI基盤モデルを開発し、地理空間情報処理に最適化する
オープンソース化
開発したモデルと関連するソフトウェア、データセット、ドキュメントなど全てをオープンソースライセンスの下で公開できるように細心の注意をし、オープンソースソフトウェアコミュニティによる利用、貢献、研究を促進する
ソフトウェアの寄贈
想定計算機資源
あればあるほど良い
開発期限
2025年6月
期待される成果
オープンソース生成AI基盤モデルの誕生
オープンソース生成AI基盤モデルおよび実用的な生成AIモデルを開発するために必要なリソースや手順やノウハウが明らかになることによって、オープンソース生成AIという分野の活性化が期待される
地理空間情報処理の高度化
地理空間情報処理に特化した生成AIを活用することで、地理空間データの解析や可視化、予測モデルの精度向上が期待される
特に、FOSS4Gを初めとしたオープンソース地理空間情報ソフトウェアコミュニティにとって重要なマイルストーンとなることが期待される
UN Open GIS Initiativeへの貢献
世界で初の、オープンソースAIの定義に準拠した地理空間情報処理に特化した生成AIモデルとして、オープンソースソフトウェアのみで推進されているUN Open GIS Initiativeが強い関心を向けることが期待される