BAGEL
https://gyazo.com/03d6ccbb571e096ade3e9d7a2df4a9ae
BAGELは、言語、画像、ビデオ、およびWebデータにまたがる数兆のインターリーブマルチモーダルトークンに対する事前トレーニング、継続トレーニング、および教師ありファインチューニングを通じてMoTの容量を拡張します。標準的な理解と生成のベンチマークでオープンモデルを凌駕し、自由形式の画像編集、将来のフレーム予測、3D操作、ワールドナビゲーション、シーケンシャル推論などの高度なコンテキスト内マルチモーダル能力を実証します。
Strix Halo機届いたらフルモデルも試してみたいところmorisoba65536.icon
FP8モデル、VRAM24GBあれば公式コードでフル機能使える?
AIの補助を借りながら構造を調べたら結構独特な作りをしてたmorisoba65536.icon
まず、MoEと書いてるものの、従来のMoEが「中間表現の正確性を高めるために専門家モデルごとに割り当てた重み(重要度)に応じて出力を統合する」事を前提としている(出力をマージしてるような感じ≒同一アーキテクチャーである必要がある)のに対してこのモデルでは出力層で完全にタスクが分かれている。 別々のタスクをするための中間思考をself-attention層で共通して扱う
従来(例えばFlux.1)の画像生成だと「まず、T5が理解したテキストをDiTが理解できる中間表現(Text Embedding)にする」→「Text EmbeddingをDiTモデルに引き渡して、DiTモデルが画像を作る」といった別々の工場(モデル)でパーツ(ベクトル)を輸送するような構造だったのを一つの工場の敷地に全部詰めて棟(タスクごとに独立したレイヤー)に同じ敷地内(モデル)で処理するようにした感じだろうか…?
ComfyUI実装
主に画像生成(編集)中心に対応してるようだ
関連