2020 年 9 月 1 日、NVIDIA は、Ampere アーキテクチャに基づいたゲーム GPU の新しいラインナップである RTX 3000 シリーズを発表しました。新機能、それに付属する AI 搭載ソフトウェア、そしてこの世代を本当に素晴らしいものにするすべての詳細について説明します。
RTX 3000 シリーズ GPU の紹介
NVIDIA の主な発表は、すべてカスタム 8 nm 製造プロセスに基づいて構築され、ラスタライゼーションと レイトレーシングの パフォーマンスの両方で大幅な高速化をもたらす、ピカピカの新しい GPU でした。
ラインナップのローエンドには RTX 3070 があり、価格は 499 ドルです。これは、最初の発表時に NVIDIA が発表した最も安価なカードとしては少し高価ですが、通常 1,400 ドル以上で販売されていた最上位カードである既存の RTX 2080 Ti を上回ることを知れば、これは絶対にお買い得です。しかし、NVIDIA の発表後、サードパーティの販売価格は下落し、その多くが eBay で 600 ドル未満でパニック販売されました。
発表時点では確固たるベンチマークがないため、このカードが本当に客観的に 2080 Ti よりも「優れている」のか、それとも NVIDIA がマーケティングを少しひねっているのかは不明です。実行されたベンチマークは 4K で、RTX がオンになっている可能性が高く、Ampere ベースの 3000 シリーズはレイ トレーシングで Turing の 2 倍以上のパフォーマンスを発揮するため、純粋にラスタライズされたゲームよりも差が大きく見える可能性があります。しかし、レイ トレーシングは現在、パフォーマンスにそれほど悪影響を及ぼさないものとなっており、最新世代のコンソールでサポートされているため、ほぼ 3 分の 1 の価格で前世代のフラッグシップ機と同じ速度で動作することが大きなセールス ポイントとなっています。
価格がこのまま維持されるかどうかも不明です。サードパーティのデザインは通常、少なくとも 50 ドルの価格が追加されており、今後の需要の高さを考えると、2020 年 10 月に 600 ドルで販売されても驚くべきことではありません。
そのすぐ上には 699 ドルの RTX 3080 があり、これは RTX 2080 の 2 倍高速で、3080 よりも約 25 ~ 30% 高速になるはずです。
そして、トップエンドの新しいフラッグシップは RTX 3090 で、これは滑稽なほど巨大です。 NVIDIA はこれをよく認識しており、これを「BFGPU」と呼んでいます。同社によれば、これは「Big Ferocious GPU」の略です。
NVIDIA は直接的なパフォーマンス指標を披露しませんでしたが、 8K ゲームを 60 FPS で実行していることを示しました。これは非常に印象的です。確かに、NVIDIA がその目標を達成するために DLSS を使用しているのはほぼ間違いありませんが、8K ゲームは 8K ゲームです。
もちろん、最終的には 3060 や、より予算重視のカードの他のバリエーションが登場するでしょうが、それらは通常、後で登場します。
実際に冷却するために、NVIDIA はクーラーの設計を改良する必要がありました。 3080 の定格は 320 ワットで、これは非常に高いため、NVIDIA はデュアル ファン設計を選択しましたが、両方のファン vwinf を底部に配置する代わりに、NVIDIA は通常バック プレートが配置される上端にファンを配置しました。ファンは空気を CPU クーラーとケースの上部に向けて上向きに送ります。
ケース内のエアフローが悪いとパフォーマンスがどの程度影響を受けるかを考えると、これは当然のことです。ただし、このため回路基板は非常に窮屈であり、サードパーティの販売価格に影響を与える可能性があります。
DLSS: ソフトウェアの利点
これらの新しいカードの利点はレイ トレーシングだけではありません。実際、これはすべてちょっとしたハックです。RTX 2000 シリーズと 3000 シリーズは、旧世代のカードと比較して、実際のレイ トレーシングの実行がそれほど優れているわけではありません。 Blender などの 3D ソフトウェアでシーン全体をレイ トレーシングするには、通常、フレームごとに数秒、場合によっては数分かかるため、10 ミリ秒未満で総当たり攻撃を行うことは問題外です。
もちろん、RT コアと呼ばれるレイ計算を実行するための専用ハードウェアはありますが、主に NVIDIA は別のアプローチを選択しました。 NVIDIA はノイズ除去アルゴリズムを改善しました。これにより、GPU はひどい見た目の非常に安価なシングル パスをレンダリングし、何らかの方法で — AI の魔法により — ゲーマーが見たいと思うようなものに変えることができます。従来のラスタライゼーションベースの技術と組み合わせると、レイトレーシング効果によって強化された快適なエクスペリエンスが実現します。
ただし、これを高速に行うために、NVIDIA は Tensor コアと呼ばれる AI 固有の処理コアを追加しました。これらは、機械学習モデルの実行に必要なすべての計算を非常に迅速に処理します。 AI は多くの企業で広く使用されているため、これらは クラウド サーバー領域における AI にとって完全な変革をもたらすもの です。
ノイズ除去以外にも、ゲーマー向けの Tensor コアの主な用途は、DLSS (ディープ ラーニング スーパー サンプリング) と呼ばれます。低品質のフレームを取り込んで、フルネイティブ品質にアップスケーリングします。これは本質的に、4K 画像を見ながら 1080p レベルのフレームレートでゲームできることを意味します。
これはレイ トレーシングのパフォーマンスにもかなり役立ちます。PCMag のベンチマークでは、 すべてのレイ トレーシング設定を最大まで上げた状態で、RTX 2080 Super の実行コントロールが超品質で動作していることが示されています。 4K では、わずか 19 FPS で苦戦しますが、DLSS をオンにすると、54 FPS とはるかに優れた値が得られます。 DLSS は、Turing および Ampere の Tensor コアによって可能になる、NVIDIA の無料パフォーマンスです。これをサポートし、GPU が制限されているゲームであれば、ソフトウェアだけで大幅な高速化が見られます。
DLSS は新しいものではなく、2 年前に RTX 2000 シリーズが発売されたときに機能として発表されました。当時、NVIDIA が個々のゲームごとに機械学習モデルをトレーニングして調整する必要があったため、サポートされているゲームはほとんどありませんでした。
しかし、その間に NVIDIA はそれを完全に書き直し、新しいバージョンを DLSS 2.0 と呼びました。これは汎用 API であるため、あらゆる開発者が実装でき、すでにほとんどのメジャー リリースで採用されています。 TAA と同様に、1 つのフレームを処理するのではなく、前のフレームから動きベクトル データを取り込みます。結果は DLSS 1.0 よりもはるかに鮮明で、場合によっては実際にネイティブ解像度よりも鮮明で鮮明に見えるため、これをオンにしない理由はあまりありません。
問題が 1 つあります。カットシーンのようにシーンを完全に切り替える場合、DLSS 2.0 はモーション ベクトル データを待機している間、最初のフレームを 50% の品質でレンダリングする必要があります。これにより、数ミリ秒の間、品質がわずかに低下する可能性があります。ただし、見ているものすべての 99% は適切にレンダリングされますが、実際にはほとんどの人がそれに気づきません。
Ampere アーキテクチャ: AI のために構築
アンペアは速いです。特に AI 計算では非常に高速です。 RT コアは Turing より 1.7 倍高速で、新しい Tensor コアは Turing より 2.7 倍高速です。この 2 つの組み合わせは、レイトレーシングのパフォーマンスにおける真の世代の飛躍となります。
今年 5 月初め、 NVIDIA は、AI を実行するために設計されたデータセンター GPU である Ampere A100 GPU をリリースしました 。これにより、彼らは Ampere がなぜこれほど高速になるのかについて詳しく説明しました。データセンターおよびハイパフォーマンス コンピューティングのワークロードでは、Ampere は一般に Turing よりも約 1.7 倍高速です。 AI トレーニングの場合、最大 6 倍高速になります。
Ampere では、NVIDIA は一部のワークロードで業界標準の「浮動小数点 32」(FP32) を置き換えるように設計された新しい数値形式を使用しています。内部では、コンピューターが処理するすべての数値が、8 ビット、16 ビット、32、64、またはそれ以上の事前定義されたビット数をメモリ内で占有します。数値が大きいほど処理が難しくなるため、より小さいサイズを使用できれば、処理する必要が少なくなります。
FP32 は 32 ビットの 10 進数を格納し、数値の範囲 (数値の大小) に 8 ビット、精度に 23 ビットを使用します。 NVIDIA の主張は、これらの 23 精度ビットは多くの AI ワークロードに完全に必要なわけではなく、そのうちの 10 ビットだけでも同様の結果とはるかに優れたパフォーマンスを得ることができる、というものです。サイズを 32 ビットではなく 19 ビットに削減すると、多くの計算に大きな違いが生じます。
この新しい形式は Tensor Float 32 と呼ばれ、A100 の Tensor コアはこの奇妙なサイズの形式を処理できるように最適化されています。これは、ダイの縮小とコア数の増加に加えて、AI トレーニングで 6 倍という大幅な高速化を実現している方法です。
新しい数値形式に加えて、Ampere では、FP32 や FP64 などの特定の計算で大幅なパフォーマンスの高速化が見られます。これらは素人にとって直接 FPS の向上につながるわけではありませんが、Tensor 操作で全体的に 3 倍近く高速になる要因の一部です。
次に、計算をさらに高速化するために、 きめの細かい構造化スパース性 の概念が導入されました。これは、非常に単純な概念を表す非常に派手な言葉です。ニューラル ネットワークは、最終出力に影響を与える重みと呼ばれる大きな数値リストを処理します。処理する数値が多ければ多いほど、処理は遅くなります。
ただし、これらの数値すべてが実際に役立つわけではありません。それらの一部は文字通りゼロであり、基本的には破棄できます。これにより、より多くの数値を同時に処理できるようになり、大幅な高速化につながります。スパース性は基本的に数値を圧縮するため、計算にかかる労力が少なくなります。新しい「Sparse Tensor Core」は、圧縮データを操作するように構築されています。
この変更にもかかわらず、NVIDIA は、これがトレーニング済みモデルの精度に目立った影響を与えることはまったくないと述べています。
最小の数値形式の 1 つである Sparse INT8 計算の場合、単一の A100 GPU のピーク パフォーマンスは 1.25 ペタフロップスを超え、驚異的に高い数値です。もちろん、これは特定の種類の数値を計算する場合に限りますが、それでも印象的です。





