OpenAI の DALL-E 2 は、 人工知能が創造性の領域に浸透し始めることは決してない (または少なくともすぐには浸透しない) と考えていた人々にとって衝撃的なものでした。しかし、DALL-E 2 はアーティストの仕事を奪うためにここにあるのでしょうか?
DALL-E 2 はどのように機能しますか?
DALL-E 2 は非常に印象的で、ほとんど魔法のように見えますが、これほど見事でリアルな画像がどのように作成されるのかの大まかな詳細を理解するのはそれほど難しくありません。
DALL-E 2 には 2 つの主要なコンポーネントがあります。1 つ目は GPT-3 で、これはおそらく現在実用化されている最も高度な自然言語 機械学習 アルゴリズムです。 DALL-E 2 は、 CLIP (Contrastive Language-Image Pre-training) として知られる別の OpenAI モデルも使用します。
GPT-3 と CLIP を使用すると、コンピューターは高度な自然言語を理解して生成できます。 (主に) インターネットからの数十億の画像とその自然言語記述を使用して DALL-E ニューラル ネットワークをトレーニングすることにより、概念間の関係を学習します。
ある意味、DALL-E は一般的な機械学習の実践の逆であり、画像を提供すると AI が見たものを説明しようとします。
テレビ番組 の悪名高い「 Not a Hotdog 」アプリを思い出してください。ここでの違いは、AI に写真がホットドッグかどうかを尋ねるのではなく、ホットドッグについて説明し、ホットドッグについて学習したすべてに基づいて完全にオリジナルのホットドッグ画像を生成していることです。
DALL-E の 2 番目の主要な部分は、画像を生成する方法です。 「拡散」と呼ばれる方法を使用します。具体的には、人間の言語で作成された画像の説明の理解は、 GLIDE という名前の OpenAI モデルを使用して画像に変換されます。 GLIDE は、ランダムに生成されたノイズで構成される画像を取得し、自然言語で記述された画像と一致するまで、そのノイズを徐々に取り除きます。それは、彫刻家が大理石のブロックから始めて、彫像だけが残るまで削り取っていくのをどこか思い出させます。
DALL-E 2 の内部のより技術的かつ詳細な説明については、AssemblyAI 深層学習ブログの DALL-E 2 の説明を 心からお勧めします。
DALL-E 2 がこれほど破壊的である理由
DALL-E 2 は、画像を生成できる最初の機械学習ソフトウェアではありません。これまでにも多くのシステムがあり、DALL-E 2 は他のプロジェクトから学んだ教訓に基づいて構築されています。では、なぜ今回が破壊的な転換点のように感じられるのでしょうか?
重要な理由の 1 つは、DALL-E と DALL-E 2 が作成する画像が見た目に美しいことです。他の AI 画像生成システムでは、人々が不穏な画像や夢のような画像を作成することがよくあります。不気味の谷に少し似ていますが、視覚芸術の話です。 DALL-E 2 は、明らかに芸術的な目や美的感覚を背後に持つ画像を作成します。
したがって、DALL-E 2 が作成する画像は、美的感覚を培うために生涯を費やした才能あるアーティストや写真家によって作成された画像に匹敵します。そのような人が、DALL-E 2 が数秒で吐き出す画像を見て、自分が無関係になりそうになることを想像するのは難しくありません。
このシステムは、自然言語プロンプトから美しい高解像度画像を数秒で作成できるだけでなく、それらの画像を微調整および編集したり、既存の画像の複数のバリエーションを提供したり、ユーザーが提供した画像も提供できます。ということは、アーティストはイーゼルや描画用タブレットを片付けて、代わりに「 コーディングを学ぶ 」べきだということなのでしょうか?
DALL-E 2 はアーティストが消えるのではなく変わることを意味する
OpenAI は、自社のテクノロジーを単に世界にリリースすることに非常に慎重でした。明らかに悪用の余地が大きいため、これは賢明です。しかし、それが可能であることが証明された今、商業または独立系の AI 研究者が DALL-E のやっていることを再現し、誰もが利用できるようになるまで、時間はかからないでしょう。機械学習分野の大手企業も、 Google の Imagen のように、独自の高性能 AI アーティストを待機させています。
パンドラの箱を閉じることはできないので、ビジュアルアートの世界が取り返しのつかない変化を遂げることを受け入れる必要がありますが、それはアーティストが過去のものになるという意味ではありません。
見方の 1 つは、このようなテクノロジーにより、誰でも芸術を生み出す力が手に入るということです。現在では、画像を作成する技術的な能力から、画面に表示されているものが頭の中にあるものと一致するまで、ビジョンを正確に説明し、反復する能力に重点が置かれています。言い換えれば、電卓の存在によってより多くの人が正確な計算を行えるようになったのと同じように、より多くの人が視覚的に自分を表現できるようになるということです。
特定のタイプのアーティストには、もはや実行可能なビジネス モデルがない可能性があります。 有料のコミッションで 生計を立てている場合、クライアントの説明に基づいて 1 時間に数百枚の画像を作成し、それらの画像をほぼ瞬時に変更できるプログラムと競争するのは困難です。代わりに、これらのツールを使用して自分自身のビジョンを実現し、自分の感性に基づいてそのユニークな画像を販売するとよいでしょう。
顧客は常に正しい
これらの画像は最終的には人間が消費するために作成されたものであることを覚えておくことも重要です。私たち人間には、便利さや技術の優位性を超えた、独自の価値観があります。生成されたアートが豊富で、したがって比較的安価で使い捨てできる世界では、それが比較的珍しいという理由だけで、人工のアートを喜んで鑑賞(そして購入)する観客が常に存在します。
言い換えれば、DALL-E 2 のようなソフトウェアは、流れ作業のアートワークを量産して生計を立てているアーティストにとっては終わりを告げるかもしれないが、何か言いたいことや、それを通して語るためのユニークなビジュアル アイデンティティを持つアーティストの可能性を弱める可能性は低いということだ。





