«Headline
Author
前田 洋介
[ROCK ON PRO Product Specialist]レコーディングエンジニア、PAエンジニアの現場経験を活かしプロダクトスペシャリストとして様々な商品のデモンストレーションを行っている。映画音楽などの現場経験から、映像と音声を繋ぐワークフロー運用改善、現場で培った音の感性、実体験に基づく商品説明、技術解説、システム構築を行っている。
ヤマハ ViReal(バイリアル) ~積み重ねた要素技術でその空間をキャプチャーする~
皆さんはViRealという技術をご存知だろうか?このViRealはヤマハが要素技術として開発を行う立体音響技術の総称。純国産の立体音響技術である。その全貌は、ヤマハのホームページなどを見ても概要、概念が中心となるため実際にどの様なことが行われているのかはっきりしない部分もある。その様な中、カプコンからその技術を採用したタイトル「モンスターハンター:ワールド」がリリースされた。まだ研究段階の技術と筆者も考えていたViRealだが、実際に製品採用されてすでにリリースもされている。その実際を確かめるべく、静岡県磐田市にあるヤマハ豊岡工場内の研究開発施設に向かい詳しくお話を伺った。
ViRealは「立体音響のトータルソリューション」とヤマハでは定義されている。そのプロジェクトのスタートは4年前にまで遡る。ご存知の通りヤマハではAVアンプを始め、サラウンドバーなど、高い技術力をベースとしたサラウンドの研究開発が行われている。そのサラウンド技術をベースとして立体音響、特にバイノーラル再生技術からその開発をスタートしたということだ。
このViRealの研究開発を行なっている部隊は要素技術開発のチーム。要素技術というのは直接的な製品開発ではなく、そのべースとなる技術を先行して開発し、実際にプロダクトのアイデアが出た際にそれを応用して使っていくという縁の下の力持ち的な側面を持つ。とはいっても、現実にならないような夢を追った研究で成果が出なければプロダクトに結びつかないし、研究を進めたもののプロダクトに落とし込めないような技術や、市場のニーズに合致しないようなものは進められない。先見の明という部分も必要とされる大切な分野であると言えるだろう。その要素技術開発の中でも空間音響グループと呼ばれる部署がこのViRealの研究を行なっている。その開発チームには様々なスペシャリストが在籍していて、ハード面、ソフト面ともに自社内で開発を進行できるだけのパワーを持っていることが取材で強く感じられた。
ViRealの研究は前述のようにバイノーラルからスタートしている。そこから空間音響、プロセッシング技術、収録技術と立体音響の入口から出口までのすべてのソリューションの開発に進化している。どこか一部分ではなく、既存の要素をヤマハ的に噛み砕き、どの様に活用を行うと効果的か、汎用的に使えるものになるのか、そのような研究が日々行われているということだ。前置きが長くなったが、それぞれの研究を個別に見ていきたい。
◎ViReal とは
ヤマハが開発中の立体音響総合技術 Virtual + Real = ViReal
1. ViReal Mic:360° 集音マイク
2. ViReal Tools:立体音響オーサリング環境
3. ViReal for Headphones:バイノーラルエンコーダ
4. ViReal for Speakers:マルチスピーカ向けエンコーダおよび出力ハードウェア
まずは、ビジュアル的にもインパクトの大きいViReal Dome。巨大な鳥かごのようなフレームの内部になんと122本ものスピーカーがおよそ等間隔となるよう設置されている。床面は平らになるのだが、影を落とした位置にスピーカーを設置しディレイとゲインで補正をしているということだ。もちろん理想は完全球体の面に設置ということになるが、現実的な環境とのトレードオフによりこのような仕様になっている。122本という数は、等間隔に設置位置をプロットした際に現実的に機器の設置が行える最大数ということで決められた。現在は、HOA=Higher Order Ambisonicsの最先端実験環境として稼動している。122ということは、ツールなどの製品が存在し現実的な最大規模となる7th orderの64chよりも多くのスピーカーがあり、ほぼ10th order(121ch)と同数。これにより高い再現性を誇るシステムが構築されている。HOAの可能性、具体的にはソースの持つ再現性等の研究が行われているということだ。
このViReal Domeの再生システムは、再生専用のPCからDanteで出力された122chのオーディオがDante Network上で分岐され、8chごとにプロセッサー/アンプによって駆動されている。このプロセッサーの制御により、音量に追従してスピーカーに設置されたLEDの光り方が強弱を持ち変化する。これにより、音の到来方向を視覚的に確認することが出来るように工夫されているそうだ。このLEDは心理的な意味合いも持つため、LEDを用いた心理音響実験や、視覚と聴覚の両方を刺激するマルチモーダル視聴の研究に使用することができる。
さらに各スピーカーにはマイクも設置されている。これは設置したばかりということで具体的に使い始めてはいないということだが、スイートスポットで楽器などを鳴らした際にどのような向きに音が放射されているかを、122点という高い精度で測定することが出来るシステムになっているということだ。こちらも今後のデータを是非とも見てみたいと思わせる実験設備。エンジニアが自分の耳で経験として判断を行なっていたマイキングが科学的に解明されメソッド化されたり、ということが現実化されるのではないかと妄想を膨らませてしまう。
再生のPCは、基本的にはHOAのソースを122chのスピーカーに合わせてプロセッシングを行なっている。具体的にはデコード後に各スピーカーへのシグナルアサインを行っており、このプロセッシングを変化させることでの結果を観察したりということが行われている。まさに、HOAを理想的な環境で再現したらどうなるのか?興味はあったとしても現実ではヘッドフォンでのバイノーラル再生になってしまうのが普通だが、ここではそれをスピーカーで体験することが出来る稀有な環境だ。
このViReal DomeはHOA再生ということでスイートスポットが非常に狭い、というよりも中心の一点しかない。これは技術の原理として致し方のないことだが、今後はこれだけのスピーカー数があるのでスイートスポット拡大のための研究も行なってみたいという話を聞くことが出来た。実際のプロダクトにおけるスイートスポットの広さというのは大切な要素。このような最大規模の研究環境からダウンサイズして、どこまで少ないスピーカー数でどこまでの再現性が確保できるのか?そのような開発へとつながっていくのであろう。
次にお話を伺ったのがViReal Micについて。これは小さな球面上に64個ものマイクが設置された6th order Ambisonics収録が行えるモンスタースペックの実験器具。もちろんそのままプロダクトとして登場したら非常に面白い存在となるのだが、逆の期待も込めてあえて実験器具と呼ばせてもらう。このマイクは、下部のボックス内でラインレベルにゲインを稼いでDanteとして出力される。ここでもDanteの持つ多チャンネルのスペックが活きている。マイクヘッドのサイズは、波長がマイクの間隔内に収まってしまうと意味がなくなってしまうため、計算上からその間隔、球体のサイズが決まっているということだ。理想のAmbisonicsマイクを考えると高域の精度を上げるためにはマイク間隔を小さくしたい、しかし低域の精度を確保するためには球体のサイズを大きくしたい。それらのバランスを取ってたどり着いたのがこのサイズ、ということになる。
個々のマイクヘッドの性能を聞いてみたが、これだけの個数の素子が設置された機器となると素子の特性よりも、設置間隔のほうが大きく影響を及ぼすため、この器具ではその部分にはあまりこだわらずに作っているということだ。とはいえ耐圧などの実験も行い、収録を想定しているフィールドなどでの利用にも耐えうる最低限のスペックは保っている。筆者はレスポンスなども実際の聴覚上の再現性には大きく影響があるのではと考えてしまうが、64個ものダイヤフラムが並んでいることを考えると1つの部品が10,000円高くなれば64万円のコスト上昇となる。ちょっと部品を交換して、ということも気軽に行える判断ではないということは想像できる。
もちろん製品化してヤマハとしてのプロダクトをリリースしたいという思いはあるということだ。その際にいくつのヘッドを搭載するのか、サイズは、コストは、と課題は相当に多いということだ。是非ともViRealとしての研究成果を詰め込んだ、市場が驚くような製品を作ってもらいたい。
◎ViReal Mic 64CHワンポイントマイクロフォン
● フィボナッチ螺旋状配置 – マイク素子数の制約なし
● デジタルオーディオネットワーク技術「Dante」採用
– LANケーブルでノートPCと接続
● Higher Order Ambisonics (HoA) – 6次まで対応可能
Unityプラグインを試す筆者。ゲームエンジンに実際に搭載されたViRealにより出力されたステレオ・バイノーラル音声を聞いている。コントローラーで3D空間内を動き回り、音源の相対位置を感じることが出来るかチェックを行なっている。
このViReal for Headphonesは当初より研究開発が続けられてきた技術の一つ。HRTF(頭部伝達関数)のチューニングを進めており、既存のHRTFで問題となる個人差を最低限とした汎用性の高いHRTFを作れないか?という研究開発を行なっている。ヤマハとしても3D音響はまずHeadphoneで聴くバイノーラル技術が一番普及をするという着眼点を持っている。しかしそこで一般的に利用されているHRTFは汎用性が低く、個人差が大きいものがほとんど。その理由は、人間が一人ずつに固有の耳の形状、頭蓋骨の形状、首の長さ、肩幅などを持っており、これらの影響を受けて音は鼓膜に到達し、音を認識しているからである。これを一般化してその個体差を縮めようと古くから各所でHRTFに関する研究が行われているが、最適とされるものは未だに誕生していない。現状で具体的に一般化された例としてはダミーヘッドマイクの形状が挙げられる。
これらの研究はすでに行われている分野ではあるが、ヤマハではあえて正攻法をとって数百に及ぶ顔の形状や耳の形状のサンプリングを3Dスキャンで行いそれらを平均化していった。技術の進歩により3Dでキャプチャーすることが容易になったのも追い風となっているようだ。その平均化されたデータをもとにして独自のHRTFを導き高性能かつ汎用性を持ったバイノーラライザーを作り出している。
現在も発展途上ということで、バイノーラルエンコードの部分に対し変更を行いその精度がどの様に変化をしていくかを日々研究しているということだ。人それぞれに感じ方が異なるHRTFを用いたバイノーラル技術、それを磨き上げることは非常に困難な作業と感じられる。実際に体験させてもらったViReal for Headphonesは、あくまでもバイノーラル体験なので個人的な感覚となってしまうことは予め断っておくが、上下の感覚、そして音源との距離感を感じる非常に精度の高さを感じさせる仕上がりとなっていた。
(左上)バイノーラル再生:HRTF (Head Related Transfer Function)を用いたヘッドホン再生。(右上)Shape-based Average HRTF
(下)HRTFの特徴となる帯域の特性補正による音質改善・定位強調 ● 定位と音質のトレードオフ ● 使用するコンテンツ・シーンに応じて最適チューニング
開発メンバーも個人ごとにHRTFを自分の3Dスキャンから簡単に生成できるようになれば、それこそが究極のバイノーラルとなるという概念は理解をしているが、あくまでもヘッドフォンでの再生を前提とすると、ヘッドフォン自体の装着具合によってもその音像は大きく異なったものになってしまうという事実にも直面している。皆さんも体験したことがあるかもしれないが、ヘッドフォンを掛けるたびに起こるちょっとした緩みや軸のずれなどで、その周波数バランスやステレオ感は大きく変化してしまう。これがバイノーラル再生でも同じように生じるということだ。完璧と思われるプライベートHRTFを用いたとしてもヘッドフォンの特性や、装着の具合によりその効果が全く発揮できないことになるかもしれない、その部分についてもViRealは汎用性に注力し独自のHRTFにチューニングを重ねているということだ。
そして現状のViReal関連技術で唯一の製品化が行われているのがこのViReal for Headphonesである。その高性能なバイノーラル技術に目を付けたカプコンが「モンスターハンター:ワールド」で実装、ヘッドフォン出力に対してViReal for Headphonesの技術を用いているということだ。その実装に際して、エフェクトとしてのリアリティーを重視した独自のチューニングが行われている。この様に単純に物理特性を追い求めるだけではなく、エンターテイメントとしての要素にも応えることの出来る余地を残した技術であるということだ。これが別の内容のゲームタイトルであれば、また違ったアプローチがあったのではないかという言葉も印象的であった。
このViReal Toolsというカテゴリはソフトウェア群を指しているということだ。HOA用のエンコーダ、デコーダから、制作向けのプラグインまで様々な製品への活用が想定され開発が進められている。ViReal for Headphonesの技術を搭載したVSTプラグインや、ゲームへの実装のためのWwiseプラグインなどがその代表として挙げられる。これらは具体的に開発がかなり進んでいるということだ。
これらのツールはHOAをベースとした技術に特化したものではなく、広い汎用性を持ったアプリケーションとして開発が進んでいる。オブジェクトベースやチャンネルベースの音源は、一旦HOAに変換してからバイノーラルプロセスを踏むのではなく、直接バイノーラルプロセスへと送られ、オブジェクト、チャンネルといったフォーマットにとらわれることなく、すべてをバイノーラル音声として出力するようになっているということだ。そのためにオブジェクトベース、チャンネルベースそれぞれにバスを持たせ、制作手法に対して柔軟な使い勝手を持ったバイノーラルプロセッサーとしている。現時点ではViRealとしてのオブジェクトベースのツールも研究したいという考えもあるということだ、純国産のオールマイティーな3Dサウンドツールの誕生を楽しみに待ちたい。
最終目標は上記のようにどのようなフォーマットの音源が入力されてもという目標はあるが、ViReal for Headphones(VSTプラグイン)はチャンネルベースの入力を持ったものが先行して登場するのではないかということだ。そして制作ツールとしてXYZ軸のパンニングだけではなく、距離、3D空間内でのローテーションなど様々なツールを作っていくという想定もある。最終的な出力段にバイノーラライザーが入るバイノーラル再生環境、HOAエンコーダー、デコーダーとツールが共通の要素技術から作られ、さらにはヤマハやそれ以外のAVアンプ、音楽プレーヤー等のAppへとまさに制作環境で聴いているものがダイレクトに届けられる。ViRealの研究がそのようなビジョンを描ける一連の研究開発であるとあらためて感じた。取材冒頭でもあったのだが、入口から出口までの技術を一気通貫で作れるだけのパワーがヤマハにはあるという言葉があらためて思い返される。
トータルの立体音響技術であるViReal。現在進められている技術が具体的にどのポジションでの活用が考えられてものなのか、それらをワークフローに当てはめたのがこの図となる。入口から出口、そして制作用のツールと、まさにトータルにViReal技術がフォローしていることが分かる。
最後に、ViReal開発チームの皆さんに自分たちの作っているこのViRealがどのような形で活用されたら良いですか?という質問を投げかけると様々な視点の回答を得ることが出来た。一つは究極の高音質=高再現性を持ったサウンドを後世に残したいという意見。例えばオリンピックなどの世界的なイベントを8K等の高解像度の映像で残すという試みは行われているが、まさに空気感ともなるそのサウンドを残そうという取り組みはほとんど行われていない。サウンドの捉えられる空間というものをしっかりとアピールしてアーカイブする、ある種の使命感をも感じる未来像だ。
一方で挙げられたのはコンテンツ制作に活かしていって欲しいというコメント。ViRealはプラットフォームに偏らない高い再現性を持つバイノーラル技術である。制作ツールを充実させることで、現場とエンドユーザーの差異をなくすことの出来る技術でもあるということをこれからドンドンアピールしたい、そんな力強いメッセージも飛び出した。様々な機会でこのヤマハ ViRealという文字を目にすることも多くなるのではないだろうか、その際にはこの空間をキャプチャーする要素技術の結実を是非とも体験していただきたい。
*ViReal(バイリアル)は、ヤマハ株式会社の登録商標です。
*Danteは、Audinate Pty Ltdの商標です。
*Wwiseは、Audiokinetic Inc.の商標です。
*その他の文中の商品名、社名等はヤマハ株式会社や各社の
商標または登録商標です。
*ProceedMagazine 2018Spring号より転載