Ideogram 4.0
オープンかつ強い画像生成モデル
構造化した JSON を入力する
Bounding Box まで指示する
space は普通の入力じゃん
code:prompt
{
"high_level_description": "A minimalist movie poster for the film 'Flow' by Gints Zilbalodis, featuring a stylized black cat floating on its back against a textured cream-colored background. The title is written in a hand-drawn, textured font above the cat, surrounded by various film festival logos and promotional text.",
"compositional_deconstruction": {
"background": "The background is a solid, light beige or parchment-colored paper texture with a subtle grainy finish. A thin white border surrounds the entire image. A small black back arrow icon is located in the top-left corner.",
"elements": [
{
"bbox": [
18,
725,
319,
936
],
"desc": "Small credit block in the top right corner. Centered alignment, uppercase serif font in a dark grey or black color.",
"text": "DREAM WELL STUDIO PRESENTS\nIN CO-PRODUCTION WITH\nSACREBLEU PRODUCTIONS\nAND TAKE FIVE\nA FILM BY GINTS ZILBALODIS \"FLOW\"\nWRITTEN BY GINTS ZILBALODIS MATISS KAZA\nDIRECTOR OF ANIMATION LÉO SILLY PÉLISSIER\nSOUND DESIGN BY GURWAL COÏC-GALLAS\nMUSIC BY GINTS ZILBALODIS\nRIHARDS ZALUPE\nRE-RECORDING MIXER PHILIPPE CHARBONNEL\nART DIRECTION, CINEMATOGRAPHY AND EDITING BY\nGINTS ZILBALODIS\nPRODUCED BY\nMATISS KAZA GINTS ZILBALODIS\nRON DYENS GREGORY ZALCMAN\nDIRECTED BY GINTS ZILBALODIS IN CO-PRODUCTION WITH\nARTE FRANCE CINEMA RTBF\n(BELGIAN TV) WITH THE SUPPORT OF CANAL+ CINÉ+\nWITH THE INVOLVEMENT OF ARTE FRANCE\nWITH THE SUPPORT OF EURIMAGES\nWITH THE SUPPORT OF THE PROVENCE ALPES-CÔTE\nD'AZUR REGION IN PARTNERSHIP WITH CNC\nWITH THE SUPPORT OF NATIONAL CENTER FOR\nCINEMA AND ANIMATED IMAGE\nIN ASSOCIATION WITH INDEFILMS 12 / LA BANQUE\nPOSTALE IMAGE 17 / CINEMAGE 1\nWITH THE SUPPORT OF THE TAX SHELTER OF THE\nBELGIAN FEDERAL GOVERNMENT\nWITH THE SUPPORT OF THE NATIONAL FILM CENTRE\nOF LATVIA LATVIAN STATE CULTURE\nCAPITAL FUND\nAND LATVIAN TELEVISION\nINTERNATIONAL SALES CHARADES",
"type": "text"
},
{
"bbox": [
88,
171,
131,
482
],
"desc": "Small pull quote at the top center. Uppercase serif font, dark grey. The attribution INDIWIRE is in a slightly bolder font.",
"text": "“BRIMMING WITH SENTIMENT BUT\nNOT SENTIMENTALITY”\nINDIWIRE",
"type": "text"
},
//...
}
}
code:doc
# Ideogram 4.0 調査まとめ
**Ideogram 4.0 = Ideogram 社が 2026/6/3 にリリースした、同社初のオープンウェイト text-to-image 基盤モデル**。9.3B パラメータながら、テキストレンダリング(文字入り画像生成)で 20B〜80B クラスの競合を上回るのが最大の売り。クローズドモデル(GPT Image 2 / Gemini)に次ぎ、オープンウェイトでは各種ベンチマーク 1 位。
## 要点
**モデル・技術**
- 既存モデルの fine-tune ではなくゼロから訓練した foundation model。パラメータ **9.3B**
- アーキテクチャ: 単一ストリーム **DiT**(34 層)、テキスト/画像トークンを 1 シーケンスに結合。テキストエンコーダに **Qwen3-VL-8B-Instruct**(VLM、中間 13 層を抽出)を採用。Flow-matching ベース
- 解像度 256〜2048px(16 の倍数)、アスペクト比最大 6:1、ネイティブ 2K 対応
- 学習: bbox + 自然言語記述ペアによる「describe-to-structure-to-recreate」方式 → 精密なレイアウト制御を実現
**プロンプト形式**
- 構造化 **JSON プロンプト**(high_level_description / style_description / compositional_deconstruction)が最高品質。bbox は [y_min,x_min,y_max,x_max] の 0-1000 正規化、color_palette は #RRGGBB 最大 16 個 - 自然言語 → JSON 変換は **Magic Prompt**(Ideogram ホスト型は無料 / OpenRouter 経由で Claude Opus・Sonnet も選択可)
**配布・ライセンス**
- HF の重みは **非商用ライセンス**(gated、要同意)。商用は別途契約(Contact sales / licensing)。GitHub のコードは Apache 2.0
- 量子化版: **fp8**(全 HW 対応、Diffusers 非対応) / **nf4**(CUDA 限定、Diffusers 対応)
- API は従量課金 3 ティア: **Turbo $0.03 / Default $0.06 / Quality $0.10**(/画像)。背景除去・Layerize(レイヤー抽出)機能あり
**ベンチマーク / 競合**
- Design Arena: オープンウェイト 1 位(上位は GPT Image / Gemini のみ)
- ContraLabs 活版組版: 勝率 **47.9%**(Gemini 30.0% / FLUX.2max 15.5% / Grok 15.0%) - 比較対象: GPT Image 2、Gemini 3.1 Flash Image(Nano Banana 2)、FLUX.2dev/max、Qwen-Image(20B)、HunyuanImage 3.0(80B MoE) **実機検証(Zenn, RTX 4090)**
- nf4 版で 1024² 生成 ≒ **4 分 / VRAM 約 20GB**。2K(2048²)は 4090 でも **OOM**
- 日本語テキストは「惜しいが、オープンモデルでここまで出るものは他にない」評価
- --no-magic-prompt だと安全フィルタ(Hive)誤検知で画像が壊れやすい既知問題あり
- 現状 Text-to-Image のみ、画像編集(img2img)はオープン版未対応