QualiaQuest

ChatGPT「4o Image Generation」機能とは?画像生成の最新アップデート2025年版

画像生成

4o Image Generation機能とは?

2025年3月25日にChatGPTに追加された「4o Image Generation」は、GPT-4oモデルによって実現された画像生成機能です。これまでのAI画像生成と比べて、大きな進化を遂げた点がいくつかあります。

まず注目すべきは「画像の中に正しい日本語のテキストを自然に表示できる」ようになったことです。これにより、例えばポスター風の画像や、文字入りイラストも自然に作れるようになりました。

従来の画像生成AIでは、日本語が文字化けしたり、意味不明な文字列になってしまうことがありましたが、GPT-4oではこの点が大幅に改善されています。

また、これまでの画像生成ツールと違い、日本語の会話形式で要望を伝えるだけで簡単に画像が作れるのも特徴です。

イラスト・写真の作成

多くの画像生成AIでは、日本語ではなく英語のプロンプトで画像を生成するものが多く、日本語が使える画像生成AIでも、うまく日本語で指定した内容を反映してもらえなかったりしましたが、「4o Image Generation」では、日本語のプロンプト指示で指示した内容をしっかりくみ取って画像が生成されます。

従来ChatGPTで採用されていた画像生成機能DALL-Eよりも、「4o Image Generation」では会話形式でこちらの作成意図をくみ取ってくれるように感じます。

「4o Image Generation」は、画像生成において「自己回帰モデル」を採用していることにより、すべてを一度に作成するのではなく、1ピースずつ順に生成する方式となるためです。

「DALL-E」は「拡散モデル」を採用しており、全体を一気に作って徐々に修正を行う方式となります。

「自己回帰モデル」を採用しているので、ピンポイントで画像の修正を依頼することができ、最初に作成した人物のポーズや背景をそのまま保持した状態で、目の色だけを修正したり、髪形だけを変更したりすることが容易となりました。

画像の生成は、従来のDALL-Eよりも時間がかかってしまい、1枚あたり1~2分ほど時間がかかることがあります。

写真からイラストへの変換

ChatGPTの4o Image Generationでは、手持ちの写真を元にイラスト風の画像に変換することもできます。

例えば、家族写真や風景の写真をもとに「ジブリ風」や「水彩画風」といった指定をすると、そのスタイルを反映したイラストが生成されます。

このとき、ポーズや表情、背景など、元の画像の情報をしっかり保持しながら変換される仕組みになっています。AIが写真を分析し、重要な情報を残したままスタイルを変更するという技術が使われています。

イラストから写真への変換

こちらも、手持ちのイラストや、ChatGPTで作成したイラストを「写真のようなリアルな画像に変えて」と指示をするだけで、簡単に実写のような画像を生成されます。

出力画像の修正機能

生成された画像に対して「もう少し笑顔にしてほしい」や「目線をカメラに向けてほしい」といった修正も可能です。

これは、画像の各パーツ(目・口・背景など)を認識したうえで、必要な部分だけを変更できるようになったからです。

また、背景だけを取り出したり、人物だけを切り抜いて透過PNGとして保存することもできます。たとえば、プロフィール用に人物だけを抜き出して使用したい場合に便利です。


元画像

髪色をブルーに変更

元画像をChatGPT 4oに渡し(アップロードし)、プロンプトに「髪色をブルーに変更してください」と入力しました。

元画像のポーズや表情、服装もほぼそのままで、画風も保持された状況で、髪色だけがうまく変更されました。
若干、コントラストが上がり、ほんの少しデフォルメされた感じはありますが、髪色に合わせてうまく調整されたように感じます。

スタイル指定による画像生成

「ジブリ風」「水墨画風」「アニメ風」など、さまざまなスタイルを指定して画像を生成できます。

指定方法もシンプルで、「○○風にして」と入力するだけ。言葉だけで雰囲気のある画像が作れるので、初心者でも操作に迷いません。

ただし、特定の有名作品のスタイルを模倣した画像を商用利用すると、著作権の問題が発生する可能性があります。趣味の範囲で楽しむのがおすすめです。


元画像

アメコミ風に変換

こちらも元画像から、プロンプトに「アメコミ風にしてください」と入力するだけで、このように変換することができました。

人物のポーズ指定

指定した画像の人物のポーズを、プロンプトで指定することで、別のポーズに変更した画像を作成することもできますし、別画像をアップロードしてアップロードした人物と同じようなポーズとなるように指定して画像を作成することもできます。


元画像 1つ目

元画像 2つ目

1つ目の画像の人物が、2つ目の画像のポーズをとっている画像が生成された

2つの画像をアップロードし、プロンプトに「1つ目の画像の人物が、2つ目の画像と同じポーズをとってください。」と指定しました。

全く同じポーズとならないことが多いですが、元となるポーズに近い形で画像が生成されます。
また、1つ目の元画像よりも出力される画像は、若干デフォルメされた感じになる傾向が強いようです。

画像内に文字の挿入、文字の編集

従来の画像生成AIでは、画像の中に文字を挿入するように指令を出しても、文字化けしたりゆがんだ文字であったりすることがほとんどでした。アルファベットであればある程度挿入が可能な画像生成AIもありましたが、4o Image Generationではかなりスムーズな文字の挿入ができています。

もちろん日本語も挿入可能ですが、小さい文字や物体に挿入する場合は、多少崩れる傾向にありますので、字幕やテロップのような形で出力するように指示をすればよいでしょう。


①ノートにアルファベットで「AI」と挿入



②持っているノートの「AI」の文字を「Qualia Quest」に変更。
「Qualia Quest」は、2行で出力。
1行目:Qualia
2行目:Quest

③ノートの「AI」の文字を「ChatGPTの新しい画像生成機能を紹介」へ変更。

④画像の下部に「ChatGPTの新しい画像生成機能を紹介」と、テロップを出力。

⑤2つ目の画像の持っているノートの「Qualia Quest」の文字の上に「最新のChatGPT画像生成機能を紹介」と出力。

ノートのような物体に文字を挿入することは可能ですが、小さい日本語の文字の場合、文字が崩れてしまうことがありました。ある程度大きい文字であれば崩れにくいようです。

物体への文字の挿入ではなく、テロップのように出力すると、文字は正しく出力されました。しかしながら、3行目の文字の下部分が切れてしまっているのと、人物も文字挿入部分が切れてしまっているので、さらに修正が必要です。

画像生成技術の進化とその背景

GPT-4oでは、画像生成AIにおける言語理解力が飛躍的に向上しました。これにより、「笑顔の女性が青空の下で立っているような画像を描いて」といった自然な日本語でも、しっかり意図を理解して画像を作ってくれます。

さらに、スタイル指定や画像修正といった細かなニーズにも対応できるようになったのは、マルチモーダルAIの進化によるものです。

ちなみに「マルチモーダルAI」とは、 人間が「目で見る」「耳で聞く」「口で話す」といった複数の情報を同時に使って物事を理解するように、AIも“文章・画像・音声”など、いくつかの異なる情報(モード)を一緒に扱えるようになってきています。こういったAIを「マルチモーダルAI」と呼びます。GPT-4oは、そうした複数の情報を同時に理解して活用できる進化したAIです。

将来的には、音声からはもちろん、人間同士の会話から、画像生成や動画の生成への対応も視野に入っているといわれています。

具体的な活用例


まとめ

今回は、ChatGPTの「4o Image Generation」について、初心者の方にもわかりやすく解説しました。

  • 日本語テキストも自然に表示可能
  • 写真からイラストへの変換ができる
  • 表情や背景の修正も簡単
  • スタイル指定で自由な表現が可能

AI画像生成に興味を持った方は、ぜひChatGPTで気軽に試してみてください。まずは趣味の範囲として、ご自身の写真を「ジブリ風イラスト」に変更してみるのも面白いですよ。(※そのままSNS等にアップすると将来的に著作権などの問題に抵触する恐れがありますので、既存のキャラクターそのものであったり、キャラクターに酷似していないことを確認するなど、ご注意ください。)

コメント

© QualiaQuest All Rights Reserved.