重要なポイント
- OpenAI Sora は、テキスト プロンプトから非常にリアルなビデオ クリップを作成し、AI テクノロジーの大きな進歩を示します。
- ビデオ内の物理を正確にシミュレートする Sora の機能は傑出した機能ですが、インタラクションとオブジェクト生成に関してはまだいくつかの問題があります。
- 現在、正式なリリース日が設定される前に安全性と品質のテストが行われているため、Sora が一般に公開されるかどうかは不明です。
AI 開発のスピードは人間の理解を超えたところに向かっています。OpenAI の Sora テキスト動画変換システムは、誰もが予想していたよりも早く物事が起こっていることに世界を驚かせる最新の AI テクノロジーです。
OpenAI Sora とは何ですか?
DALL-E や MidJourney などの他の生成 AI ツールと同様に、Sora はユーザーからテキスト プロンプトを取得し、それらを視覚的なメディアに変換します。ただし、前述の AI 画像ジェネレーターとは異なり、Sora は、モーション、さまざまなカメラ アングル、方向など、従来の方法で制作されたビデオに期待されるすべてを備えたビデオ クリップを作成します。
Sora Web サイト の例を見ると、多くの場合、結果はプロが制作した本物のビデオと見分けがつきません。ハイエンドのドローン映像から数百万ドル規模の映画制作まで、あらゆるものを提供します。 AI が生成した俳優、特殊効果、作品を完備。
もちろん、Sora はこれを実現する最初のテクノロジーではありません。これまで、この分野で最も目立つリーダーは RunwayML で、サービスを有料で一般に提供していました。ただし、最良の状況下であっても、Runway のビデオは 初期世代の MidJourney の静止画像 によく似ています。画像に安定性はなく、物理法則も意味がありません。これを書いている時点で、クリップの長さは最長で 16 秒です。
対照的に、Sora が表示する最高の出力は完全に安定しており、(少なくとも私たちの脳にとっては) 正しく見える物理学を備えており、クリップの長さは最大 1 分にもなります。クリップには音がまったく含まれていませんが、音楽、効果音、音声を生成できる AI システムはすでに他にもあります。したがって、これらのツールが Sora のワークフロー、あるいは最悪の場合でも従来のナレーションやフォーリーの作業に統合される可能性があることは間違いありません。
Sora デモのわずか 1 年前の悪夢のような AI ビデオ映像から、Sora がどれほど大きな飛躍を遂げたかは、どれだけ誇張してもしすぎることはありません。 スパゲッティを食べる非常に不穏な AI ウィル・スミス など。これは、AI 画像ジェネレーターが冗談から ビジュアル アーティストに実存的な恐怖を与える ようになったときよりも、システムにとってさらに大きな衝撃だと思います。
Sora は、個人のストックフッテージ制作者から、ディズニーやマーベルの巨大予算プロジェクトのレベルに至るまで、ビデオ業界全体に影響を与える可能性があります。これによって影響を受けないものは何もありません。 Sora は全面的に何かを作成する必要はなく、提供された静止画をアニメーション化するなど、既存の素材に取り組むことができるため、これは特に当てはまると思います。これが 合成映画産業 の本当の始まりかもしれません。
ソラはどのように機能しますか?
できる限り、Sora の内部を少しだけ掘り下げていきますが、そこまで詳しく説明することはできません。まず、OpenAI は皮肉にも自社テクノロジーの内部動作についてオープンではないからです。それはすべて独自のものであるため、Sora を競合他社と区別する秘密のソースの正確な詳細は不明です。第二に、私はコンピューター科学者ではありませんし、あなたもおそらくコンピューター科学者ではないため、このテクノロジーがどのように機能するかを広範な一般的な観点からしか理解できません。
良いニュースは、 Mike Young による優れた (ペイウォールで保護された) Sora の解説が Medium にあるということです。これは、 OpenAI の技術レポート に基づいており、彼は私たち人間でも理解できるように詳細に解説されています。どちらの文書も読む価値がありますが、最も重要な事実をここで抽出できます。
Sora は、OpenAI などの企業が ChatGPT や DALL-E などのテクノロジーを開発する際に学んだ教訓に基づいて構築されています。 Sora は、サンプル ビデオを ChatGPT のトレーニング モデルで使用される「トークン」に似た「パッチ」に分割することで、サンプル ビデオでのトレーニング方法を革新します。これらのトークンはすべて同じサイズであるため、クリップの長さ、アスペクト比、解像度サイズなどは Sora にとって重要ではありません。
Sora は、GPT を強化するのと同じ広範な トランスフォーマー アプローチと、AI 画像ジェネレーターが使用する拡散方法を使用します。トレーニング中に、ビデオからノイズの多い部分的に拡散したパッチ トークンを調べ、クリーンでノイズのないトークンがどのように見えるかを予測しようとします。それをグラウンドトゥルースと比較することで、モデルはビデオの「言語」を学習します。 Sora Web サイトの例が非常に本物に見えるのはそのためです。
この驚くべき能力とは別に、Sora にはトレーニング対象のビデオ フレームに非常に詳細なキャプションが含まれています。これが、Sora がテキスト プロンプトに基づいて生成するビデオを変更できる理由の大部分を占めています。
ビデオ内の物理を正確にシミュレートするソラの能力は、現実世界の物理学に基づいたモーションを含む何百万ものビデオでトレーニングされたことによって単純に得られる新しい機能であるようです。 Sora はオブジェクトの永続性に優れており、オブジェクトがフレームから離れたり、フレーム内の他の何かによって遮られたりした場合でも、オブジェクトは存在し続け、妨害されずに戻ります。
ただし、ビデオ内のものが相互作用したり、因果関係があったり、自発的にオブジェクトが生成されたりする場合には、依然として問題が発生することがあります。また、少し面白いことに、ソラは時々左と右を間違えるようです。それにもかかわらず、これまでに紹介したものはすでに使用できるだけでなく、完全に最先端のものです。
ソラはいつ手に入るの?
ですから、私たちは皆、Sora を実際に触ることができることに非常に興奮しています。私はこれを使って遊んで、厳選された出力が表示されていないときに、このテクノロジーがどれほど優れているかを正確に書きます。しかし、どれくらい早くそれが起こるでしょうか?
この記事の執筆時点では、Sora が一般公開されるまでにどれくらい時間がかかるか、またその価格がいくらになるかは不明です。 OpenAIは、この技術は「レッドチーム」の手に渡っていると述べた。レッドチームとは、ソラに本来してはならないあらゆるエッチなことをさせようとし、そのような行為に対してガードレールを設置するのを手伝うことを任務とする人々のグループである。実際の顧客がそれを使用するときに何が起こるかを説明します。これには、誤った情報を作成したり、軽蔑的または攻撃的な内容を作成したり、想像できるその他多くの悪用の可能性が含まれます。
また、この記事を書いている時点では、選ばれたクリエイターの手に渡っていますが、これはテスト目的と、最終リリースに向けてサードパーティのレビューや承認を得ることの両方を目的としているのではないかと思われます。
肝心なのは、DALL-E 3 を支払うだけで使用できるのと同じように、実際にいつ利用可能になるかはわかりません。実際には、OpenAI ですらまだ明確な日付がありません。これは単純に、安全性テスターの手に渡った場合、予想よりも修正に時間がかかる問題が発見され、公開が延期される可能性があるためです。
OpenAI が Sora を披露する用意ができていると感じているということ、さらには X (旧 Twitter) を通じて厳選された公開プロンプトをいくつか受け入れる用意があるということは、同社が最終製品の品質はほぼ準備ができていると考えていることを意味しますが、世論のより良い全体像が得られるまでは、安全性の問題が提起され、また安全性の問題が発見されたことについては、誰も確かなことは言えません。数年ではなく数か月の話をしていると思いますが、来週には期待しないでください。





