本サイトでの Cookie の使用について

Shibuya 03-3477-1776
Umeda 06-6131-3078

«Solution

Author

前田 洋介

[ROCK ON PRO Product Specialist]レコーディングエンジニア、PAエンジニアの現場経験を活かしプロダクトスペシャリストとして様々な商品のデモンストレーションを行っている。映画音楽などの現場経験から、映像と音声を繋ぐワークフロー運用改善、現場で培った音の感性、実体験に基づく商品説明、技術解説、システム構築を行っている。

GPU Audio / 既存概念を超越するオーディオGPU処理の圧倒的パフォーマンス

AES2022で綺羅星の如く登場し、業界の注目を集めているGPU Audio 社。これまで、AudioのPC上でのプロセスはCPUで行う、という認識が暗黙の了解のように存在していたのだが、GPUというこれまで活用してこなかったプロセッサーを使用することで、さらなる処理能力の向上を現実のものとした、まさにゲームチェンジャーとなりうる可能性を秘めた技術を登場させている。

Viennaの動作で実証された驚くべき能力

NAMM 2023の会場では、そのGPUプロセスに対し賛同した複数のメーカーとの共同ブースを構えて展示を行っていた。GPU Audio自体は、独自に開発したプラグインを複数発表しているが、NAMMの会場ではVienna Symphonic Libraryの誇る、高精度だが非常に動作が重いとされるVienna MIR PRO 3Dのセッションを、なんとGPU上で動作させるというデモを行って会場を驚かせていた。


📷コンサートホールを模したバーチャル空間に配置されたインストゥルメント。実際のオーケストラの配置を念頭に各パートが配置されており、そのパート数はなんと63。クオリティーの高さと引き換えに動作が重いことで有名なViennaではあるが、こちらのデモではさらに3D空間でのシュミレーションが加わっている。

このVienna MIRのセッション上には70トラックの音源が同一空間に配置され、3D空間内部での音源として再生が行われていた。CPUでの処理では音にノイズが混ざったりしていたものが、GPU上で動作させると使用率は30%程度に抑えられ、しかも安定して綺麗に再生される、ということがまさに目の前で実践されていた。このデモで使用されていたLaptop PCは、いま考えられる最高のスペックだと自信たっぷりに案内されたのだが、まさにその通りで、CPUはIntel Core i9 13900、メモリ64GB、GPUはNVIDIA GeForce RTX 4090という、現時点における最高の組み合わせ。つまり、その最新世代のCore i9でさえ動かしきれないものを、GPUをもってすれば余裕を持って動作させることができる。これは、GPU Audioがアナウンスしているように、FIRの計算であれば40倍、IIRの計算でも10倍のパフォーマンスが得られるということが現実になっているということだ。


📷クローズアップしたのはGPU Audioの技術により組み込まれたCPU/GPUの切り替えボタン。ベータ版のため実際の製品でもこのような仕様になるかは不明ではあるが、これこそが本記事でご紹介しているGPUによるオーディオ処理を確認できるポイントとなる。GPUがいかに強力とはいえ、有限のプロセッシングパワーであることは間違いない。従来のCPU処理と選択できるというアイデアは、ぜひともリリース版にも搭載してもらいたい機能だ。

並列処理、ベクトル計算を得意とするGPU

📷CPUとGPUでの処理速度の差をグラフ化したものがこちら。一般的に処理が重いと言われているFIR(リニアフェイズ処理)において、30〜40倍の速度向上が見込めるというのが大きなトピック。一般的なEQ処理などで使われるIIRにおいては、CPUとの差は縮まり10~15倍。これは、元々の処理自体が軽いということもありこのような結果になっているようだが、それでも大幅な処理速度向上が見込める。多数のコアを使った並列処理によるFIR処理の高速化は、やはりGPUの真骨頂と言えるのではないだろうか。

なぜ、GPUをAudioのプロセスに使うだろうか?筆者も10年以上前から、Audio Processを行うにあたりCPUは頑張って仕事をしているが、GPUは常に最低限の仕事(ディスプレイへのGPUの表示)しか行っていないのは何とももったいないと感じていた。高価なデスクトップPCを購入すれば、それに見合ったそこそこのグレードにあたるGPUが搭載されてくることがほとんど。搭載されているのにも関わらず、その性能を活かしていないのはなんとももどかしい。しかも、GPUはオーディオ信号処理にとってのエキスパートとなる可能性を持つ部分が数多くある。

まず考えられるのは、大量のトラックを使用し多数のプラグインを駆使してミキシングを行うといったケース。かなり多くの処理が「並行して複数行われる」ということは容易に想像できるだろう。これはまさにGPUが得意とするリアルタイム性が必要な並列処理であり、レイテンシーを縮めることと、並列処理による処理の最適化が行えるはずである。次に、GPUがベクトル計算のプロフェッショナルであるということ。オーディオ波形を扱うにあたり、この特徴は間違いなく活かせるはずである。オーディオの波形編集などで多用されるフーリエ変換などはGPUの方が秀でている分野である。

●GPU(Graphics Processing Unit)とは!?

GPUとはGraphics Processing Unitの略称であり、リアルタイム画像処理に特化した演算装置あるいはプロセッサを指す。通常の演算処理に使用するCPU=Central Processing Unitとの違いは、膨大な並列処理をリアルタイムに演算する必要がある3Dのレンダリング、シェーディングを行うために数多くの演算用のコアを搭載しているということが挙げられる。現行のCPUであれば、4~20個ほどのコアを搭載しているものが一般向けとして流通しているが、それに対しGPUではNVIDEAの現行製品RTX 40シリーズは処理の中心となるCUDAコアを5888~16384個と桁違いの数を搭載している。

このような高度な並列処理が必要となった過程はまさに3D技術の進化とともにあり、Microsoftが1995年に開発した、ゲーム・マルチメディア向けの汎用API Direct Xの歴史とともにハードウェアの進化が二人三脚で続いている。3Dのグラフィックスをディスプレイに表示するには、仮想の3D空間において、指定座標におかれた頂点同士をつなぎ合わせたワイヤーフレームの構築し、そこに面を持たせることで立体的な形状を生成。これを空間内に配置されたオブジェクトすべてにおいて行う。そこに光を当て色の濃淡を表現、後方は影を生成、霧(フォグ)の合成など様々な追加要素を加えてリアリティーを上げていく。こうして作られた仮想の箱庭のような3D空間を、今度は2D表現装置であるディスプレイ表示に合わせて、3D-2Dの座標変換処理、ジオメトリ処理を行うこととなる。これらの作業をリアルタイムに行うためには、高速にいくつもの処理を並列に行う必要がある。それに特化して並列化を進めたものが今日のGPUである。


NVIDIA GPU比較表


このような並列処理に特化したGPUは、2005年ごろよりコンピューティングの並列化に最適なプロセッサーとしてGPGPUという新たな分野を切り拓いている。単一コアの高性能化が一定の水準で頭打ちすることを見越して、処理を並列化することでの効率化、高速化を図るというものである。汎用CPUと比較して明確なメリット・デメリットはあるものの、特定分野(特にベクトル計算)においてはその性能が発揮されるということもあり、スーパーコンピュータ分野で普及が進んでいる。
現在では、Direct X 10以降の世代の汎用GPUであればGPGPU対応となっている。汎用のAPI「C++ AMP」や「OpenACC」などのプログラミング言語環境も整っており、普通に入手可能な製品でもGPGPUの恩恵を受けることは可能である。まさに今回紹介するGPU Audioはこのような特徴を活かしたものと言えるだろう。

オーディオでシビアなレイテンシーを解決

📷NAMM Showの会場でGPU Audioは、そのテクノロジーに賛同するメーカーと共同でブースを構えていた。

リアルタイムかつ、同時に数多くの処理を並列でこなすことのできるGPUが、まさにAudio Processingの救世主となりうる存在であることは、多くのPCフリークが気付いていたはずである。しかし、なぜ今までGPUを活用したオーディオプロセッシング技術は登場してこなかったのだろうか?

ここからは筆者の考察も含めて話を進めていきたい。GPU Audioのスタッフに話を聞いたところ、昨年のAES 2022での発表までに費やした開発期間は、実に8年にも及ぶということだ。一見シンプルにみえるGPU上でのオーディオ処理だが、実現するためには多くの困難があったようだ。その具体的な事例として挙がっていたのはレイテンシーの問題。

そもそもリアルタイム性を重視して設計されているGPUなのだから、問題にはならなさそうな気もするが、グラフィックとオーディオの持つ性質の差が解決を難しくしていたようだ。想像をするに、画像処理であれば一部分の処理が追いつかずにブロックノイズとして表示されてしまったとしても、それは広い画面の中の微細な箇所での出来事であり、クリティカルな問題にはならない。しかしオーディオ処理においてはそうとは行かない。処理遅れにより生じたノイズは明らかなノイズとして即時に聴こえてしまい、オーディオにおいてはクリティカルな問題として顕在化してきてしまう。単純にGPGPUなど、GPUをコンピューティングとして活用する技術は確立されているのだから、プログラムをそれにあった形に変換するだけで動くのではないか?と考えてしまうが、そうではないようだ。

CPUが非力だった時代より今日までオーディオプロセスを行わせるための最適なデジタル処理エンジンは、DSP=Digital Signal Processerである。これに異論はないはずだ。昨今ではFPGAを使用したものも増えてきているが、それらも基本的にはFPGA上にDSPと同様に動作するプログラムを書き込んで動作させている。言い換えれば、FPGAをDSPとして動作させているということだ。

その後、PCの進化とともにCPUでの処理が生まれてくるのだが、これは汎用のプロセッサーの持つ宿命としてレイテンシーが発生してしまう。もちろんDSPの処理でもレイテンシーは発生するのだが、CPUは処理の種類によりレイテンシー量が異なってくる一方で、その遅延量を定量化することが可能なのがDSPの持つ美点である。レイテンシーが定量であるということは、オーディオにとっては非常に重要なこと。問題にならないほどレイテンシーが短いのであれば、あえてディレイを付加することにより遅延量を定量化することは容易いのだが、チャンネル間の位相差などレイテンシー量がバラバラになるとクリティカルな問題に直結してしまう。GPUの持つ可能性がどれほどのものなのかは、今後登場する製品に触れたときに明らかになることだろう。

📷デモではViennaを使っていたが、GPU Audioでは自社でのプラグインのリリースも行う。こちらが自社で開発したコーラス、フランジャーなどのモジュレーション・プラグインと、FIRを活用したリバーブプラグインとなる。従来のCPUベースのプラグインをリリースするサードパーティ各社への技術提供と並行して、このようにGPU Native環境でのプラグイン開発を行うプランが進行している。

デモを見るかぎりGPUが持つ可能性は非常に高いと感じる。PCでのオーディオプロセスとしてはフロンティアとも言える領域に踏み込んだGPU Audio。今まで以上のプロセッシングパワーを提供することで、全く新しい処理を行うことができるプラグインの登場。DAWのミキシングパワーはCPUで、プラグインプロセスはGPUで、といったような処理の分散による安定化など多くのメリットが考えられる。今後、GPU Audioの技術により業界が大きく変化する可能性を大いに感じられるのではないだろうか。


📷プレゼンテーション用のステージではライブパフォーマンスも行われていた。QOSMOはファウンダーであり、自身もミュージシャンであるNao TokuiとBig YUKIによるパフォーマンスを提供。一流ミュージシャンに寄るパフォーマンスが楽しめるのもNAMM showの醍醐味のひとつ。

 

*ProceedMagazine2023号より転載

SNSで共有
*記事中に掲載されている情報は2023年08月16日時点のものです。