MidJourney vs. DALL-E 3: 直接対決

AI 画像生成テクノロジーは急速に進歩しているため、わずか数週間または数か月で、実現できる品質と機能がまったく異なるものになる可能性があります。 DALL-E 3 はテクノロジーの飛躍をもたらしますが、MidJourney とどのように比較できるのでしょうか?

DALL-E 3 の特別な点は何ですか?

MidJourney の進化と機能については以前に詳しく説明しましたが、これまでのところ、MidJourney は実際の使用に適した最高の芸術的な出力を実現する頼りになる画像ジェネレーターでした。ただし、MidJourney で生成された画像で実際に望んでいたものに近づくことは、非常に行き当たりばったりの出来事になる可能性があります。正確な制御が必要な場合は、 Stable Diffusion とその多数の MOD ( ControlNet など) の 1 つを使用する必要があります。ただし、Stable Diffusionの方が格段に使いにくく、使いやすさではMidJourneyとDALL-E 3の方が優れています。

DALL-E は、お客様のプロンプトの文言をより正確に忠実に守ることをお約束します。言い換えれば、特定のキャラクターのポーズ、シーン内の詳細、またはシーン内のオブジェクトの配置を要求した場合、理論上、DALL-E 3 は要求したものを提供するはずです。いくつかのプロンプトを使用して DALL-E 3 と MidJourney を比較します。同じプロンプトが各 AI ジェネレーターに表示されます。

プロンプト 1: 芸術的才能

まず、各ジェネレーターが芸術的に何を行うかについての一般的な感覚をつかみたいので、かなり一般的なプロンプトから始めます。

 90 年代のファンタジー アート スタイルで、エルフとドラゴンが登場する壮大なファンタジー シーンのイメージを生成します

これが私が最高だと思ったMidJourneyの画像です。

そして、これが私が最高だと思った DALL-E 3 の画像です。

ここで注目すべき興味深い点は、ChatGPT (この場合は DALL-E 3 のフロントエンド) が、私のプロンプトを正確に画像ジェネレーターに渡さないことです。 DALL-E 3 の主なセールスポイントの 1 つは、ChatGPT (つまり GPT-4) を使用してアイデアを受け取り、作業の「プロンプトエンジニアリング」部分を実行することです。したがって、より良い結果を得るために、より詳細なプロンプトが作成されます。私のリクエストに基づいて ChatGPT が作成したプロンプトは次のとおりです。

 90 年代のファンタジーアートワークを彷彿とさせる油絵で、崖の端に立つ男性と女性のエルフのグループが描かれています。背景では、巨大なドラゴンが舞い上がり、その翼が下の緑豊かな森に影を落としています。シーンは鮮やかな色とドラマチックな照明で満たされています。

GPT はプロンプトの品質を向上させているため、2 つの画像ジェネレーターを比較しようとする場合、これは特有の課題となります。そこで、公平を期すために、GPT で生成されたプロンプトを MidJourney に入力した結果がこれです。

今では、もっと匹敵するものができました。しかし、どちらが勝つのでしょうか？この場合、私の意見としては、DALL-E 3 の画像の方が私が求めていたものに近いのに対し、MidJourney の画像の方がより独特なスタイルとより芸術的なセンスがあるということです。私の意見では、MidJourney の現在の V5 モデルは全体的な芸術的才能に優れていますが、もちろんこれは非常に主観的なものです。

残りの比較では、プロンプトの作成に関して私のスキル (またはスキルの欠如) を補うために、両方の画像ジェネレーターに対して GPT で生成されたプロンプトのみを使用します。つまり、最初に ChatGPT に画像を要求し、生成された最適な画像をコピーして、MidJourney に貼り付けます。

プロンプト 2: テキスト要素

生成された画像にテキストがある場合、MidJourney は gobbledygook を思いつく傾向があることに気づいたかもしれません。それは、文字のように見えても実際には文字ではないものを生成しているためです。したがって、テキスト付きの T シャツや店舗の看板には意味のあるテキストは含まれません。 DALL-E 3 は、好きなテキストを作成してフレーム内に正しく配置することを約束しているので、それをテストしてみましょう。 ChatGPT が作成したプロンプトは次のとおりです。

コーディング作業に熱中するコンピューターオタクを描いた、新聞の漫画を彷彿とさせる絵。彼の T シャツには、「How-To Geek Is Awesome」という大胆な文言が目立ちます。シーンは、壁にテクノロジーのポスターと付箋が貼られた居心地の良い隅に設定されています。

DALL-E 3 の結果は次のとおりです。

そしてこれがMidJourneyの結果です。

MidJourmey の出力は目には非常に心地よいものですが、私たちが求めていたものとはまったく異なるため、DALL-E 3 がここでそれを取り上げます。ただし、画像には意味のないテキストがまだたくさんあります。私のテストでは、画像内のすべてのテキストを指定するか、要求したテキスト以外にテキストがない場合、DALL-E はうまく機能しますが、画像に指定されていないテキストが含まれている場合は、MidJourney と同様にナンセンスです。

プロンプト 3: シーンの設定

実行する最後のテストは、すべての主要な要素の位置を指定するシーンの設定です。

ブレードランナーの美学を彷彿とさせるサイバーパンクの街並みのイラスト。輝く目とサイバネティックな手足を持つサイボーグ女性が左側に立っており、輝くリンゴを持っています。彼女の向かい側、右側では、エキゾチックなフルーツの数々に囲まれ、使い古された外装をしたロボット販売員が葉巻を吸っている。通りは活気に満ちており、上空にはドローンが飛行し、ネオンサインが現場を照らしています。

DALL-E 3 の結果は次のとおりです。

そして、MidJourney による 4 つの試みすべてがここにあります。

繰り返しますが、MidJourney は芸術的才能に優れていますが、プロンプトで私が尋ねたことを実際に実行することは完全に失敗しています。

DALL-E 3 では同じ画像をさまざまなスタイルでやり直すことができますが、いくらごまかしても、MidJourney で要求された特定の要素や配置を一貫して再現することはできません。こちらも同じイメージですが、DALL-E 3よりシュールで幻想的なスタイルをお願いしました。

DALL-E 3 は完璧ではありません

MidJourney を捨てて DALL-E 3 を導入することを決定する前に、DALL-E 3 のテスト中に私が遭遇したいくつかの大きな制限について知っておくべきです。

ChatGPT は著作権で保護されたキャラクターの画像の生成を拒否しますが、MidJourney は既存のキャラクターのファンアートを喜んで作成します。
ChatGPT では、存命中のアーティストのアートスタイルを尋ねることもできませんが、MidJourney ではこれを行うことができます。
どちらのプラットフォームでも、本質的に暴力的または性的なアダルトコンテンツに関しては、特定の一線を超えるアートは生成されません。ただし、MidJourney には誤検知に対する簡単な異議申し立てプロセスがありますが、ChatGPT は一見するとはるかに洗練されているため、説得にはある程度の時間がかかるかもしれません。

私がこのツールを使用した時間は限られており、DALL-E 3 と MidJourney には常に新しい調整や機能が追加されていますが、これらはほとんどの人が気にするであろう最も明白な制限でした。

評決

ここで絶対的な勝者を宣言するのは非常に困難ですが、現状では、生成するものに表現力と芸術的センスを求める場合には、MidJourney が使用するのに最適なツールです。対照的に、イラストやその他の専門的な使用例の要件を正確に満たして一貫したアートワークを作成したい場合は、DALL-E 3 の方がはるかに優れたツールです。