YuisekinAI 2.0
ゴール
OSAIDに適合できる汎用生成AI基盤モデルの開発と公開 **MIT Licenseとする**
パラメーターサイズ0.5B、1B、3B、7B
memo
事前学習から積極的に合成データセットを使う
数学、コーティングなどのコーパスを先に学習させる
その後に自然言語を学習させる
量も質も重要
データセット
OSAIDに適合できるデータセット
モデルサイズによってライセンスが異なるのでそれらは除外
0.5B, 1.5B, 7B, 14B, 32B
Llama派生等を除く
1.5B, 7B, 14B, 32B
OSAIDに適合できるトークナイザー
Apache-2.0 license
Apache-2.0 license
OSAIDに適合できるアーキテクチャ
MistralForCausalLM
Apache-2.0 license
Qwen2ForCausalLM
Apache-2.0 license
OSAIDに適合できる事前学習ライブラリ
Apache-2.0 license
Apache-2.0 license
MIT license