MidJourney は V6 モデルのアルファ版をリリースしました。V5.2 に対して多くの改善が期待されています。私たちは紙の上で何が優れているのかを検討し、古いモデルと比較してテストします。
V6 の新機能は何ですか?
V6 の内部では間違いなく多くのことが起こっていますが、MidJourney は 公式 Discord スレッド で主要な機能を強調しました。問題の投稿を表示するには、MidJourney Discord のメンバーである必要があることに注意してください。最も重要な変更点は次のとおりです。
- より正確な即時遵守。
- 長いプロンプト。
- 一貫性とモデルの知識が向上しました。
- 画像のプロンプトとリミックスが改善されました。
- マイナーなテキスト描画機能 (新しい DALL-E モデルと同様)。
- 「微妙」モードと「クリエイティブ」モードの両方を備えた改良されたアップスケーラー。
つまり、V6 は、MidJourney をライバル ツール DALL-E 3 の印象的な新機能とより一致させますが、ここでは、この記事の執筆時点でデフォルトであった V5.2 モデルよりもどれほど優れているかに興味があります。 。
あなたが MidJourney サブスクライバーで、新しい V6 アルファ バージョンを試したい場合は、Discord に 「/settings」 と入力し、コマンドの送信後に表示されるモデル メニューから V6 を選択します。
即時遵守
私が最初にテストしたいのは、新しいモデルがプロンプトにどれだけ忠実に従っているかです。以前は、MidJourney はプロンプトの詳細を、指示というより漠然とした提案のように受け取っていました。ここでは、非常に詳細な手順が記載されたプロンプトを示します。
未来都市の市場を描きます。フレームの左側には、左腕に買い物かごを持った女性がいます。右側には露店が見えます。果物を売る屋台の後ろにロボットがいます。ロボットは紫色で、伸ばした右腕にリンゴを持っています。
各モデルについて、プロンプトに最も近い画像を選択しました。これが V5.2 が考え出した最高のものです。
V6が考えたベストがここにある。
V5.2 には通常、私が要求したすべての要素が含まれていますが、それらはフレームに対して、または互いに対してまったく正しく配置されていません。ここで V6 が犯した唯一の間違いは、リンゴをロボットの左腕に置き、買い物かごを女の子の右腕に置いたことです。おそらく最も重要なことは、V6 で生成されたすべての画像が、フレーミングやバランスの感覚がなく、ただ一緒に混ざったように感じられる V5.2 で作成されたものよりもはるかに一貫性があることです。
画像にテキストを入れる
DALL-E 3 と同様、MidJourney V6 は画像にテキストを適切に統合する機能を誇ります。プロンプト内で引用符を使用してテキストを区切るだけです。使用したプロンプトは次のとおりです。
「How To Geek」と書かれた布製の旗。
V6 がまだ完璧ではないことを示すために、両方のモデルの 4 回の試行すべてをここに載せていますが、V5.2 の画像はどれもテキストを正しく理解するのには程遠いです。
ただし、V6 では、最初の試行で 75% 成功し、テキストが単にオーバーレイされているのではなく、画像に適切に統合されていることがはっきりとわかります。
芸術的な品質
V6 がどれだけプロンプトに従うか、テキストを統合できるかを多かれ少なかれ客観的にテストすることはできますが、芸術的な品質を見極めるのははるかに困難です。 MidJourney モデル V1 から V5.2 を比較した ところ、新しいモデルが登場するたびに AI がより「想像力豊か」になっていることは明らかでした。これ以上適切な言葉はありませんでした。構成とディテールも大幅に改善されており、 MidJourney と DALL-E 3 を比較した ときに指摘したように、正直なところ、芸術的センスに関しては V5.2 が依然としてトップです。
したがって、これはこれを読んでいる各人の判断に任せるのが最善であると思います。そこで、ここにいくつかの画像のペアを示します。左側が V5.2、右側が V6 です。
プロンプト: エルフたちが仕事に取り組むエルフの村の、壮大で美しいファンタジーのシーン。油絵にしてみよう
プロンプト: エイリアン、ロボット、人間がすべて同じ都市に住んでいる未来的なストリート シーン。デジタルスピードペインティングのスタイルで作成します。
プロンプト: 空に大きな月が見える、ビーチから見た山々の自然写真。
それは単なるアルファです(今のところ)
MidJourney V6 はこの記事の執筆時点ではまだ完成していないことに留意することが非常に重要です。これは、以前のモデルから学んだ教訓を活かして、ゼロからトレーニングされた新しいモデルです。 V6 には、 画像をパンする機能など、V5.2 にある素晴らしい付加価値の一部がまだ欠けています。
明らかなことは、MidJourney で知っているプロンプト エンジニアリングのテクニックをすべて投げ捨てても、V5.2 は依然として魅力的で使いやすい画像を作成する能力を完全に備えているということです。この段階では、V6 アルファ モデルを試して、プロンプトでより良い結果が得られるかどうかを確認することに害はありませんが、V5.2 も手元に置いておきます。





