LOCAL AI HACKATHON 行動計画

前提

LOCAL AI HACKATHON 事前情報

目標

100個のTinyLlama派生LLMのリリース

行動計画

1日目

開発環境構築

必要があれば、学習コードをマルチGPU環境に対応させる

マルチGPU環境下で、一番基礎的なTinyLlamaのファインチューニングに掛かる時間を計測する

tinyllama-color-coder

tinyllama-sql-coder

確実に一時間も掛からずに終わるので、ハイパーパラメーターを変えてみて、応答性能を検証する

寝る前に、VRAMを限界まで使うハイパーパラメーターで日本語ファインチューニングTinyLlamaを仕込む

tinyllama-ja

2日目

日本語ファインチューニングTinyLlamaの所要時間と性能を検証する

問題があったらハイパーパラメーターを再調整する

ここで一日潰れる可能性もある

問題がなければ、優先度順に、以下の言語にもファインチューニングを展開していく

フランス語

中国語

ロシア語

スペイン語

アラビア語

この5つの言語は、今回必須（国連作業言語であるため）

必要な学習時間によっては最悪数日削られる可能性がある

3日目

すべてうまく行ったと仮定する

優先度順にタスク特化ファインチューニングTinyLlamaを作っていく

text2overpassql

tinyllama-overpassql-coder

Sentiment Analysis

tinyllama-sentiment-analizer

Named entity recognition

tinyllama-named-entity-recognizer

Fake news detection

tinyllama-fake-news-detector

Hate speech detection

tinyllama-hate-speech-detector

これらのタスクは、今回必須（国連で需要があることがわかっているため）

必要な学習時間によっては最悪数日削られる可能性がある

4日目

ここまで順調に進むと仮定すると、速くもやることがなくなっていく

とりあえず、wiki40bが対応している40以上の言語にファインチューニングしていく

必要な学習時間によっては最悪数日削られる可能性がある

5日目

もしも余裕があったら、ドメイン特化のExpertのTinyLlamaをファインチューニングする

数学

物理学

化学

生物学

医学

etc

これらの特化TinyLlamaを作る際に、手動ではやらず、autonomous-infinite-tinyllamaを実装・動作確認していく

6日目

たぶんこんなにスムーズにはいかないが、もしも余裕があったら、巨大なVRAMがないと動かせない高性能なLLMでのデータセットの生成や蒸留を実行する

7日目

8日目

9日目

10日目