画像生成AIキャッチアップ 2025
目標
AIの実用上の限界を知る
技術が予想より下ブレするのはいいが、予想より上ブレするとまずい。それを前提にした制作を考える必要があるから。
現時点でのベストが、どのように制作に取り入れられるのかわかる
漫画の背景をどこまで任せられるのかを知りたい
ゴール
成果物
10月までにCC集を作る
冬までに1本40ページ以上の漫画を作る
手段
調査
生成AIの売れている作品を見て何ができるのかの気づきのリストを作る
キャラクターの一貫性に関してはもはや当たり前になったようだ
典型的な制作物のワークフローを追走して確認する
AIがアンロックするもの
量産=量産前提でないとできないもののアンロックが明らかに一つの強みだが
こっちはあまり言及する人がいないように感じる。やってみないとわからないからだと思う
GPT-5.icon実行のための「観察・試行・制作・振り返り」をタスク化する
調査フェーズ
主要モデル調査
⬆️の作品のクレジットを参照する
試行フェーズ
小規模な「テストプロジェクト」を複数走らせる
生成失敗例を「何が原因でうまくいかなかったか」メモ化 (モデルの限界 vs 自分のプロンプト制御の限界を切り分ける)
プロンプトやリファレンス管理のテンプレートを自作して運用する
テストプロジェクト
キャラ一貫性テスト
NovelAI: アニメ調キャラに強く、リファレンス指定との親和性が高い
flux: 画風はリアル寄りだが、プロンプトでの制御性が違う SDXL + LoRA: 学習済みLoRAを使うと特定キャラや服装での再現度が高いが、汎用性は落ちる
未来すぐ来た。忠実性が非常に高い
一枚絵アニメテスト
「コマ数/滑らかさ/キャラ保持」を観察
SNSに試し投稿して反応を見る
ローカル生成比較
現在の標準的制作環境を調査・実行
有料サービス(NovelAI・Midjourney)との画質比較
モデルで生成して感覚を掴む
以下のモデルを試す
大型DiTを1つ試す
背景が出せるか
かなり早くサクサクできるので試行錯誤には良さそう
リファレンスとプロンプトを用意するのがしんどい。リファレンスだけで書いてほしい
リファレンスを一度GPT-5級のサービスでプロンプトにしてもらってそれをコピペすると大幅に工数が減らせる
漫画は難しそう
ローカルでもできるのか?試す
有償サービスの生成実験
API
Blenderでdepth画像を吐き出して画像生成を試す
109が出せるか?
https://youtu.be/o7N6Fbtg84E
ダイナミックさ不可能テスト
全力で生成して、ハンターハンターと同じ画面を作れるか?
写真でこれができるなら、VRChatで写真を撮って漫画にするというようなワークフローもありうる(重いワークフロー)
https://gyazo.com/e58371b5cd0c6f1f05d0723caa804e76
画面の一部を人間が描いた時に全体クオリティを維持できるのか?
制作フェーズ
10月までのCG集に向けて「テーマ」を先に固定 (例: キャラ〇〇、季節感△△)
「テーマ」決定のために小スケッチや参考画像を3〜5枚だけ作り、方向性を早めにロックすると迷走しにくい
漫画用には「ネーム1ページ」を紙やデジタルで作り、それをAIで置き換える実験をやる
ワークフロー確立だけど、こういうやり方でいいのか謎だな...基素.icon
GPT-5.icon現状(2025年夏時点)、AIが「人間が決めたネーム通りに正しくコマ割りして描く」ことは基本的にできない。hailuoなど「漫画ページ生成」を謳うモデルはあるが、精度はまだ低く、吹き出しやコマ枠が崩れることが多い。 制作スケジュールを週単位に分割 (例: 週1キャラテスト、週2仕上げ)
捨てカット前提で「30枚生成 → 5枚採用」をルール化
塩梅は後から調整基素.icon
補助タスク
ローカル環境構築 (Stable Diffusion系を一度触る、落差を知るため)
モデルとワークフローが浦島太郎基素.icon
フィードバックループ確立 (SNSやDiscordにアップして他者の反応を得る)
実験を公開してもいいが、無駄に摩擦を生みたくないので棲み分けがしたい基素.icon
歴史キャッチアップ
基素.icon最後に触ったのいつだっけ
Claude Sonnet 4.iconあなたが最後にStable Diffusionのモデルを触ったのは2022年頃と推定されます。
主な手がかり:
「自作PC build(2022)」でAutomatic1111版Stable Diffusion web UIのdockerについて言及
「stable-diffusion-webui-dockerを試す」「stable-diffusion-webui-dockerをWindowsで使う」などの実際の環境構築記録が2022年頃
ControlNet、LoRA、DreamBooth、Textual Inversionなど2022年後期から2023年初期の技術について多数の記録
NovelAI Diffusionのリーク騒動(2022年10月頃)についても詳しく記録
2023年以降の新しい技術(Stable Diffusion 3、Flux、SD3.5など)についてもページはありますが、これらは情報収集レベルで、実際に触った形跡は見当たりません。
基素.iconここから現時点までの出来事をざっくり知りたいのでDeep Researchを使う
この2年半は、画像生成AIが技術的な成熟期を迎え、クリエイティブな表現のための真のパートナーへと変貌を遂げた時代であった。お前が最後に触れた技術は、もはや歴史の1ページとなっている
基素.iconこのレポートによるとどんな技術によってどんな表現ができるようになった?
モデルはU-NetベースからDiTベースになった(タイポグラフィ・複雑なシーンの理解)。具体的にはStable Diffusin 3.5 / flux.1
3Dを使ってシーンを決めてレンダリングに画像生成AIを使う
Gemini 2.5 Pro.icon
レポートによれば、この2年半の技術進化は、クリエイターがAIをより深く、意図通りに制御するためのブレークスルーをもたらしました。主要な技術と、それによって可能になった表現を以下にまとめます。
1. 基盤アーキテクチャの進化:より賢くなった「翻訳家」
技術:拡散トランスフォーマー (DiT) とマルチモーダル拡散トランスフォーマー (MMDiT) できるようになった表現: 従来のモデルが苦手としていた、複雑な文章の深い理解が可能になりました 。
例えば、「馬に乗る宇宙飛行士の写真」といった単純な指示だけでなく、「シロップの川が流れるワッフルでできたカバ」のような、複数の要素が複雑に関係し合うシーンを正確に描画できます 。
さらに、画像内に正確な文字(タイポグラフィ)を描き出す能力が飛躍的に向上し、ポスターやロゴデザインへの応用が現実的になりました 。これは、AIが単語を画像に「置き換える」のではなく、文章全体の構造と意味を理解してビジュアルに「翻訳する」能力を獲得したことを意味します。
2. キャラクターの一貫性維持:物語のための「魂」の注入
できるようになった表現: 漫画やアニメ、絵本のように、同じキャラクターを異なるポーズ、表情、シーンで一貫して登場させることが、学習の手間をかけずに可能になりました 。
IP-Adapterは参照画像からキャラクターの特徴を瞬時に適用し
FLUX.1 Kontextは対話形式で「このキャラクターの表情を笑顔にして」といった編集を可能にします 。
これにより、クリエイターは一貫したビジュアルを持つ物語を紡ぐことができるようになりました。
3. ポーズと構図の精密制御:クリエイターは「監督」へ
技術:3Dソフトウェアとの連携 (3D-2Dパイプライン)、FLUX.1 Tools (ControlNet後継)、高度な領域プロンプティング できるようになった表現: Blenderなどの3Dソフトで決めたカメラアングルやキャラクターの複雑なポーズを、そのまま2Dイラストに反映させることが可能です 。
領域プロンプティングを使えば、キャンバスを分割し、「左には赤い服の男性、右には青いドレスの女性」といったように、画面内の要素をピクセル単位で正確に配置できます 。 これにより、意図した通りの構図を持つ、よりダイナミックで物語性豊かな一枚絵の作成が容易になりました。
4. リアルタイム生成:思考と同期する「魔法の筆」
できるようになった表現: 数分かかっていた画像生成が1秒未満に短縮され、プロンプトを入力するそばから画像がリアルタイムで変化していく、インタラクティブな創作体験が実現しました 。これにより、アイデアを試行錯誤するスピードが劇的に向上し、より直感的で流動的なクリエイティブワークフローが可能になっています。
5. テキストからの動画生成:個人が作る「映画」
技術:高品質なテキストからのビデオ生成モデル (OpenAI Sora, Klingなど)
できるようになった表現: テキストだけで高品質な映像クリップを生成できるようになったことで、個人が脚本から短編映画やアニメーションを制作する「AIシネマ」という新たな表現分野が生まれました
基素.iconレポートを読んでタスクリストを更新した。利用に関して薄かったので更なる調査
基素.iconレポートを読み、漫画を取り巻く環境は2022年からぜんっぜん進化していないことがわかった
基素.icon手が止まってる。細切れにする
Gemini 2.5 Pro.icon
あなたのドキュメントを読むと、最後に画像生成AIに触れたのが2022年頃で、現在の技術との「落差を知る」ことが一つの目的になっていると見受けられます。そこから逆算し、あなたの最終目標である「漫画制作への応用」 に繋がるようなステップを提案します。
ローカル環境での試行フェーズ:目的とアクションプラン
ローカルでの試行の最大の目的は**「2022年時点の知識(Automatic1111 + SD1.5 + ControlNet初期)から、2025年現在の標準的な制作ワークフロー(ComfyUI + DiTベースモデル + 発展した制御技術)へのギャップを体感的に理解すること」**です。
以下に、あなたのメモに基づいた4つの具体的なステップを提案します。
ステップ1:現代の標準環境を構築する
目的
2022年頃の標準だったAutomatic1111 から、現在のデファクトスタンダードであるComfyUIへ移行し、ノードベースの柔軟なワークフローに慣れる。
新しいモデルアーキテクチャ(SDXL、DiTベース)を動かすための基礎環境を整える。
具体的なアクション
ComfyUIの導入: あなたの調査レポート「画像生成AI技術の進化と漫画制作」で指摘されている通り、新しいモデルへの対応速度や柔軟性からComfyUIが現在の主流ツールとなっています。まずはこれをローカルPCに導入しましょう。
基本モデルの導入: SD1.5系だけでなく、比較のためにSDXL系のベースモデルを最低1つは導入してください。あなたのリストにあるSDXLモデルの中から、例えば「Anything XL」 などを選ぶと良いでしょう。 ステップ2:新世代モデルの「絵作り」の感覚を掴む
目的
U-Netベースの旧世代モデルと、DiT(Diffusion Transformer)アーキテクチャを採用した新世代モデルの根本的な出力品質やプロンプトへの追従性の違いを肌で感じる。
ご自身の目標である「漫画の背景をどこまで任せられるのか」 を見極めるため、背景生成能力を重点的にテストする。
具体的なアクション
モデルの試用と比較: あなたがリストアップした以下のモデルをComfyUI上で実際に動かし、同じプロンプトでどのような違いが出るかを確認します。
/work4ai/wan2.2
/work4ai/🦊Chroma
/work4ai/Neta Lumina
代表的な SDXLモデル 1つ
(可能であれば)DiTベースのモデルを1つ
評価軸: 生成時には特に「背景描写の精度」「プロンプトの複雑な指示(例:複数の人物と物体の関係性)の再現度」に注目して評価メモを残しましょう。
ステップ3:「リアルタイム生成」による思考の高速化を体験する
目的
2022年には存在しなかった「リアルタイム生成」という、現代の主要なワークフローを体験する。
アイデア出しや試行錯誤のスピードが劇的に向上することを実感し、今後の制作プロセスにどう組み込めるかを考える。
具体的なアクション
LCMのローカル実装: あなたはすでにKrea.aiのLCMと遊ぶを試し、「ローカルでもできるのか?」という問いを立てています。その答えを出すために、あなたのメモにあるリンク先 を参考に、ComfyUI上でLCM-LoRAを導入・実行してください。 比較: 通常のSDXLモデルで数十ステップかかる生成と、LCM-LoRAを適用して4〜8ステップで生成される画像 の速度と品質を比較します。これにより「速度のために何を犠牲にしているのか」を明確に理解できます。
ステップ4:漫画制作のための「構図の精密制御」を試す
目的
漫画制作において最も重要な「意図した通りの構図」を作り出すための現代的な手法を習得する。
「ネームをAIに清書させる」というワークフローの実現可能性を探る。
具体的なアクション
3D-2Dパイプラインの実行: あなたの計画にある「Blenderでdepth画像を吐き出して画像生成を試す」 を実行します。これは調査レポートでも「究極の制御を求めるクリエイターにとって主流のワークフロー」として紹介されています。
Blenderで簡単なシーンとカメラアングルを決め、深度マップ(Depth Map)を出力します。
ComfyUIのControlNet(に相当するノード)にその深度マップを入力し、画像を生成します。
領域プロンプティングの実験: 「漫画のコマごとに一括で生成できないか?」というあなたの問い に答えるため、ComfyUIで領域プロンプティング(Regional Prompter)を試します。キャンバスを分割し、各領域に異なるプロンプトを適用して一枚の画像を生成できるかテストしましょう。
まとめ:アクションとゴールの接続
以上のローカルでの試行は、あなたの最終的なゴールに直結しています。
| ステップ | 具体的なアクション | これによってあなたのゴールにどう繋がるか |
|---|---|---|
| 1. 環境構築 | ComfyUIを導入する | 現代の多様な技術(LCM, 新ControlNet等)を試すための土台ができる。 |
| 2. モデル評価 | 新世代モデルで背景などを生成する | 漫画制作 背景をAIに任せる際の品質限界がわかり、作画コストを見積もれるようになる。 | | 3. リアルタイム生成 | LCM-LoRAをローカルで試す | CG集制作 大量生成が前提の制作 で、アイデア出しの効率が劇的に向上する。 | | 4. 構図制御 | 3D-2Dパイプライン、領域プロンプティングを試す | 漫画制作 ネームから意図した構図のコマを生成する具体的なワークフローを確立できる。 | まずはステップ1のComfyUI導入から始めてみてください。この現代的な基盤を整えることが、「浦島太郎」状態から脱却し、効率的にキャッチアップを進めるための最も確実な一歩となります。
二つの目標、「漫画制作」と「CG集制作」に合わせて、ローカル環境で試すモデル群(wan2.2, Chroma, Neta Lumina, SDXL系)をどのように評価すればよいか、具体的なテスト項目を提案します。
評価のポイントは、漠然と画像を生成するのではなく、あなたの最終成果物に求められる能力をモデルが持っているか、ピンポイントで確認することです。
モデル評価のための具体的なテストプラン
まず、両方の目的に共通する基礎能力をテストし、その後、各目標に特化した評価を行います。
1. 共通基礎テスト:モデルの地力を知る
目的: プロンプトをどれだけ正確に理解し、多様な絵柄に対応できるか、モデルの基本的な性能を測ります。
テスト項目:
複雑なプロンプトの解釈能力:
あなたの調査レポートに例としてあったような、複数の要素が複雑に関係しあうシーンを生成させてみます。
テスト用プロンプト例: a hippo made of waffles, in a river of syrup(シロップの川にいる、ワッフルでできたカバ)。
評価ポイント: 各要素(カバ、ワッフル、川、シロップ)が破綻なく結合されているか。無関係なものが出現しないか。
画風の多様性と追従性:
同じプロンプトで、画風を指定する単語だけを変えて生成し、指示通りに描き分けられるかを確認します。
テスト用プロンプト例: 1girl, solo, portrait に (anime style), (watercolor painting), (oil painting) などをそれぞれ追加して試す。
評価ポイント: 指示した画風の特徴を捉えられているか。モデル固有の「癖」が強すぎないか。
2. 漫画制作向け評価
目的: あなたの最重要課題である「漫画の背景をどこまで任せられるか」と「意図した通りのコマを生成できるか」を評価します。
テスト項目:
背景生成能力:
漫画で頻出する背景を、異なるアングルから生成できるかテストします。あなたのメモにも角度変更への言及がありました。
テスト用プロンプト例:
classroom, from teacher's perspective, detailed background, anime style
classroom, from student's perspective, sitting in the back row, detailed background, anime style
評価ポイント: パースは正確か。小物は破綻していないか。アングル変更指示に追従できるか。
漫画コマの再現テスト:
あなたがKrea.aiで試したプロンプトをベースに、白黒の漫画コマを生成できるかテストします。
テスト用プロンプト例: a 1-koma manga page, comic panel, Japanese manga style, black and white, monochrome, detailed face, expressive. A close-up shot of a beautiful teenage girl with long dark hair tied back with a ribbon. She is wearing a school blazer and bow tie. span_6 start_spanspan_7 start_spanShe is winking and looking at the viewer. 評価ポイント: 「白黒」「漫画スタイル」といった指示を守れるか。コマ枠や集中線のような漫画的表現を生成してしまうか、それともイラストだけを生成するか。
ダイナミックな構図への追従性:
あなたの「ダイナミックさ不可能テスト」の簡易版として、ControlNet(深度)を使い、意図した構図に追従できるか試します。これは調査レポートで「最先端のワークフロー」として紹介されている手法です。
テスト手順: Blender等で作成した簡単な深度マップをControlNetに入力し、アクションシーンのプロンプトで生成します。
評価ポイント: 深度マップの構図を維持したまま、プロンプトの指示(キャラクターやエフェクト)を描画できるか。
3. CG集制作向け評価
目的: キャラクターの一貫性、ディテールの品質、そして魅力的なポーズの制御が可能かを評価します。
テスト項目:
キャラクター・衣装の一貫性(簡易テスト):
CG集では同じキャラクターを様々な構図で描く必要があります。あなたの調査レポートで「参照ライトな制御」として紹介されているIP-Adapterを使い、1枚の画像からキャラクターの特徴を維持できるかテストします。
テスト手順: あなたが描いたキャラクターのイラストを1枚IP-Adapterに入力し、different pose, smiling expression などのプロンプトで複数枚生成します。
評価ポイント: 元絵の髪型、髪の色、目の形、服装のデザインを維持できているか。
ディテールと質感の品質:
高品質な一枚絵に求められる細部の描写力を確認します。
テスト用プロンプト例: masterpiece, best quality, 1girl, close-up on hands, holding a detailed porcelain teacup, intricate lace gloves
評価ポイント: 破綻しやすい「手」の描写は安定しているか。衣服の質感(レース、シルクなど)や小物のディテールは表現できているか。
ポーズ制御の精度:
狙った通りのポーズを取らせることができるか、ControlNet (OpenPose) を使ってテストします。これはあなたの調査レポートでも、ポーズを正確に制御する主要な技術として挙げられています。
テスト手順: Magic Poserなどのツールで作ったポーズの骨格(スケルトン)をOpenPoseに入力し、キャラクターを生成します。
評価ポイント: 骨格データ通りのポーズを正確に再現できるか。不自然な人体の破綻は起きないか。
評価シートの提案
これらのテスト結果を記録するために、シンプルな表形式でメモを取ることをお勧めします。
| モデル名 | テスト項目 | 生成結果 (◎/○/△/×) | 備考(得意なこと、苦手なこと) |
|---|---|---|---|
| wan2.2 | 共通:複雑なプロンプト | ○ | ワッフルの質感は良いが、カバの形が少し崩れた |
| wan2.2 | 漫画:背景生成 | ◎ | パースが正確で、小物も安定している |
| ... | ... | ... | ... |
この評価を通じて、各モデルの長所と短所が明確になり、「背景生成ならこのモデル」「キャラクターの一枚絵ならこのモデル」といった使い分けの判断基準ができます。これが、あなたの目標達成に向けたモデル選定の確かな土台となります。
タスクリスト
これまでの計画を上から順番に実行できる直列のタスクリストに整理します。
このリストは、環境構築からモデル評価までを一本道で進められるように構成されています。
画像生成AIキャッチアップ 2025:実行タスクリスト
フェーズ1:制作環境のセットアップと基本体験
目的: 2022年時点の知識を2025年の標準にアップデートするための土台を築く。
タスク1:【環境構築】ComfyUIの導入
アクション: ローカルPCに、現在の主流であるノードベースUI「ComfyUI」をインストールする。これは、新しいモデルや複雑なワークフローへの対応が速いためです。
タスク2:【モデル準備】評価対象モデルのダウンロード
アクション: 試行フェーズでリストアップした以下のモデルをダウンロードし、ComfyUIの指定フォルダに配置する。
/work4ai/wan2.2
/work4ai/🦊Chroma
/work4ai/Neta Lumina
比較用のSDXLモデル(例:Anything XL)
タスク3:【高速化体験】LCM-LoRAの導入
アクション: リアルタイム生成をローカルで体験するため、ComfyUIにLCM-LoRAを導入する。あなたのメモにあるteftef氏のnote記事が参考になります。
タスク4:【制御技術準備】ControlNet関連モデルの準備
アクション: 構図制御テストのため、ComfyUIで利用するControlNetモデル(特にDepthとOpenPose)を準備する。
フェーズ2:体系的なモデル評価
目的: ダウンロードした各モデルが、あなたの目標(漫画制作、CG集制作)に対してどの程度の実力を持っているかを客観的に評価し、主力モデルを選定する。
タスク5:【評価準備】評価シートの作成
アクション: テスト結果を記録するため、以下の項目を持つ評価シート(テキストファイルやスプレッドシート)を作成する。
モデル名
テスト項目
生成結果 (◎/○/△/×)
備考(得意なこと、苦手なこと)
タスク6:【共通テスト】全モデルの基礎能力を評価
アクション1:複雑なプロンプトの解釈能力テスト
各モデルでプロンプト a hippo made of waffles, in a river of syrup を実行し、結果を評価シートに記録する。
アクション2:画風の多様性テスト
各モデルでプロンプト 1girl, solo, portrait, (anime style) と 1girl, solo, portrait, (watercolor painting) を実行し、描き分け能力を評価シートに記録する。
タスク7:【漫画向けテスト】背景とコマの生成能力を評価
アクション1:背景生成能力テスト
各モデルでプロンプト classroom, from teacher's perspective, detailed background, anime style を実行し、結果を記録する。
アクション2:漫画コマの再現テスト
あなたがKrea.aiで試した白黒漫画のプロンプトを使い、各モデルで実行して結果を記録する。
アクション3:ダイナミックな構図の追従性テスト
Blender等で作成した深度マップをControlNet Depthに入力し、各モデルでアクションシーンを生成させ、構図の維持能力を記録する。
タスク8:【CG集向けテスト】キャラクター表現力を評価
アクション1:キャラクターの一貫性テスト
IP-Adapterを使い、自作のキャラクター画像を1枚参照させ、different pose, smiling expression といった指示で生成し、各モデルの一貫性を記録する。
アクション2:ディテール品質テスト
プロンプト masterpiece, 1girl, close-up on hands, holding a detailed porcelain teacup を使い、各モデルの手や小物の描写力を記録する。
アクション3:ポーズ制御の精度テスト
用意した骨格データをControlNet OpenPoseに入力し、各モデルのポーズ再現度を記録する。
このリストを上から順に進めることで、体系的に現在の画像生成AIの技術をキャッチアップし、ご自身の創作活動に最適なツールを見つけ出すことができるはずです。