Shibuya 03-3477-1776
Umeda 06-6131-3078

«Headline

Author

前田 洋介

前田 洋介

[ROCK ON PRO Product Specialist]レコーディングエンジニア、PAエンジニアの現場経験を活かしプロダクトスペシャリストとして様々な商品のデモンストレーションを行っている。映画音楽などの現場経験から、映像と音声を繋ぐワークフロー運用改善、現場で培った音の感性、実体験に基づく商品説明、技術解説、システム構築を行っている。

ゼロから飛び込むVR音響世界~VRとは一体何者なのか!?~

ゼロから飛び込むVR音響世界、VRの音響に関して話を進める前に、まずはVRとは一体どういったものなのか?VRを取り巻く現状、そしてそれぞれに異なる進化を始める各分野、そういった周辺の情報も含めた、いま置かれているVRコンテンツ制作の現状を振り返りそれぞれに対してのアプローチを掘り下げていきたい。

VRはいま黎明期を脱しようとしている

まず話をしておきたいのは、仕事としてのVR制作の現状はどのような状況にあるのか?という点。VRという言葉を非常に多く目にする今日このごろだが、皆さんの周りにどれくらいVRの音響制作をしたという方がいるだろうか?全体の市場の盛り上がりに対して音響市場はどうなっているのだろうか?これらは感覚的なものではあるが、そこに温度差を感じている方は多いのではないだろうか?
 
実際の世界規模におけるVR関連市場の統計と今後の予測だが、2016年のVR市場は$1.8B=18億ドル、日本円にしたら2000億円強といったところだろうか。2017年は$3.7B=37億ドル=4000億円強と倍増、2018年には$9.0B、2019年、2020年と倍増を続けるという見通しもある。そして、現時点ではハードウェアの伸びに対してソフトウェアが大きく伸びているという特徴がある、つまりこれまでの市場はハードウェア先行でコンテンツ制作はこれからというのが実情のようだ。そう考えると、街中でVRという文字を多く見かけても、コンテンツ制作としてのVR音響はまだ一般的な実感を伴っていない初期段階にあるのかもしれない。
 
しかし、黎明期よりソフトウェアの制作を行なってきたクリエイターたちにとっては、まさに今年は第2フェーズへと移行していく年とも言える。2017年には売上額が1億円を超えたソフトウェア・タイトルが10作品以上誕生し、アカデミー賞でも特別業績賞がVR短編作品の監督に贈られたりとソフトウェア制作の市場もしっかりとした足跡を残し始めている。この一方でベンチャー的に制作を行なってきた会社からスピンアウトして2歩目を踏みだした制作者が、今年さらなる成果を上げるのではないかと言われている。試行錯誤を続け、VRにおけるコンテンツのあり方というものを手探りしてきた段階から、ある一定のメソッドを見出しさらに新しいことへの挑戦が始まっている。実験的な段階から、応用段階へとフェーズが移行しているのが現時点だ。
 
我々を取り巻く環境を見ても、VRの視聴環境はPS VRをはじめ非常に身近なものとして興味さえあればすぐに手に入れられる状況となっている。VR元年と言われた2016年には、一部のガジェット好きのおもちゃであったVRが一般ユーザーにも受け入れられる製品になってきていることは皆さんも感じているのではないだろうか?VRを活用したアミューズメント施設が各地に作られ、新しい刺激的な体験を提供することに成功している。Amazon / IKEAなどではARを活用した新しいショッピングの提案が行われたりもしている。そして、AppleはiOSのアップデートでAR Kitと呼ばれるAR支援機能を実装してきている。開発環境、視聴環境、それらが一般的なものとしてどんどんと身近なものになってきているのは間違いのないことだ。


Cinematic VR / Intaractive VR

「VR」と一口に言われているものも、その実態は様々である。ここではその分類をしっかりと行なっていきたい。
 
まずは、VR=Virtual Reality。これはその名の通りユーザーを仮想現実空間にいざなうもの。VRゴーグルを装着し、全天周映像の中へと飛び込むFull-Diveと言われるものだ。映像作品であればその物語のストーリーの中へ飛び込み、登場人物(キャラクター)と時間を共有するようなコンテンツが作られる。もう一つVRが非常に大きな広がりを見せている分野がゲームである。ゲームはそもそもが仮想の世界。その中でユーザーはキャラクターを操作して楽しむもの。その仮想の世界へ没入させることができるVRはまさにゲーム向きのシステムであるとも言える。キャラクターの目線(一人称視点)で仮想世界を旅する、ゲーム開発者が一つの到達点としていた世界観を実現できるデバイスとなる。
 
VRで知っておきたいのが、映像作品としてのVRとゲームにおけるVRは全く制作手法が異なるということだ。映像作品は、Cinematic VRと呼ばれ、当たり前だがユーザーがプレイボタンを押した瞬間から時間軸は強制的に進行して行く。まさにVR世界に飛び込んだユーザーがその時間軸を映像の中で共有していくということになる。一方のゲームは、ユーザーが操作をしなければ何も起こらない。ユーザーのトリガーによってストーリーは進行していくこととなる。ゲームはIntaractive(インタラクティブ) VRと呼ばれる分野だ。CInematic VRは従来の映像コンテンツの制作手法の延長線上にあるが、Intaractive VRはゲーム制作の延長線上にあるコンテンツということになる。
 
これまでにも様々な実験的な作品が作られてきている。特にCinematic VRの分野は新しい映像表現ということで注目を集めて数々の試みが行われ、どのような世界へユーザーをいざない、どのような体験をさせることで魅力的なコンテンツとなるのか?ということが試されてきている。その試みの中で、従来のストーリーボード、絵コンテは通用しないということがはっきりと分かっている。なぜなら、Cinematic VRではユーザーがどちらを向くのかわからないからだ。
 
従来の映像コンテンツは見せたいもの、見てもらいたいものをクローズアップしたり、様々な手法によって固定された画面に見せたいものだけを映すことができた。そのカット編集により、ストーリーを効果的に展開することもできる。Cinematic VRではこれまでのような矢継ぎ早のカット切替は没入感の阻害でしかなく、しかも全天周の映像の中では、見てもらいたいものを常に正面に置いても、ユーザーがそれを見ているとは限らない。ストーリーの展開に必要な出来事が視聴するユーザーの視界の外で起こってしまうかもしれないのだ。
 
そうなると全く新しい映像が必要となる。最近のCinematic VRのStory-tellingのプレゼンテーションで盛んに言われているのが「視聴者に体験をさせる」ということ。これまで物語を分かりやすく「見せる」ということが重視されてきたが、VRゴーグルを掛け、その世界へ没入してきたユーザーを観客ではなく登場人物の一人として扱うことが重要だという発想だ。さらには、ユーザーに孤独感を感じさせない演出も大切だとも言われている。意図的にそのコンテンツを視聴しているユーザーが孤独?これこそがイマーシブ=没入型コンテンツの核心に触れる部分だと感じているのだが、そのコンテンツの世界にFull-Diveしたユーザーはその世界の中の人物として周囲の登場人物と距離感を持つ。それが全く無視されたようなコンテンツでは、せっかく没入しているユーザーがただの観客となり、疎外感を感じ、コンテンツ自体に対しての興味を失ったりといったことが起こってしまう。
 
つまり、その世界に受け入れられることで更に没入感を高め、そこで起きている物語へ入り込めるのかどうか、ということだ。実写VRが難しいと言われているのはまさにこの部分。その空間で起こっていることを共有することは出来ても、よほど意図的にユーザーを引き込むような演出がなされない限り、ユーザーはただの観客になってしまい、シラけた疎外感に囚われてしまう。よほど美しい風景だとしても、半強制的に長回しで見せ続けられれば苦痛になる。Cinematicはインタラクティブではないため、場面の切り替わりはユーザーが意図的に行えるものではなく、時間の経過を待つしか無いためである。
 
片や、Intaractive VRは完全にこれまでのゲーム制作手法の延長線上にある。これまで表現しきれなかった部分、さらに没入感を高めたいと制作者があの手この手を使い工夫を凝らしてきた部分。それらが理想的な形でVR世界の中で表現される。もともと、ユーザーがどちらを向くのかわからない、どの様なタイミングでイベントが起こりストーリーが進行するのかわからない、プログラムされた世界の中でフラグを立ててそのすべてがユーザーの手によるトリガーに委ねられる。また、ゲーム制作者以外がIntaractive VRを作ろうとすると、ゲームを作る時と同じ作業を行わなければならないという事実にも直面する。具体的にはUnrealやUnityと呼ばれるゲームエンジンを利用することになるためだ。

さらに進むVR分野、AR / MR

次にAR=Augument Reality、拡張現実と呼ばれるもの。これは現実の世界にCGなどで実際に存在していないものを映し出す。Google GrassやEPSONのET-300シリーズなどがその代表、身近なところではポケモンGo!もARを使用した一般的な事例だ。ARはコンテンツ制作というところからは離れるものがほとんどだが、様々な分野ですでに実用が始まっている。例えば、工場のラインでARを使ったマニュアルを映し出しミスを防ぐ、IKEAでは家具をARで映し出し購入した後のインテリアの様子を表示させる、他にも道案内のラインを表示させたりなど、すでにその事例は数多い。AppleがiOSに実装したAR Kitはこれらのアプリケーション開発を促進するためのものだ。しかし、ARの分野は現実の世界ありきのものばかりなので、音響の入り込む余地はほぼないと言える。あったとしても警告音等の効果音止まりというのがほとんどである。
 
そして、いま最先端のVR分野とされるのがMR=Mixed Reality、複合現実と呼ばれるものだ。ぱっと見た目にはARと同じように感じるかもしれないが、現実世界へ単純に仮想物体をオーバーレイ表示するARとは違い、現実世界の物をベースに仮想世界を重ね合わせる。Microsoft HoloLensのプロモーションビデオを見るとそのイメージもよく伝わるのではないだろうか、ホログラムを現実世界に登場させる、ということだけではなくそれが現実世界とのインタラクティブな関係に成り立っていることが見てとれるはずだ。AR Glassと違い、MR Glassにはカメラがついていて周りの状況を認識している。その現実世界に合わせて仮想現実をオーバーレイしていく、さらにカメラでユーザーのジェスチャーを認識して操作を行ったりということも目指している。まさにアニメやSFの世界である。このMRはITのリーディングカンパニーであるMicrosoftが総力を上げて開発を進めている最先端技術の一つ。そして、その対抗馬と見られているのがStart Up(これまでにない技術を開発するベンチャー)として高い注目を集めているMagic Leap。この会社は開発構想のプレゼンですでに2000億円もの資金調達に成功し、製品のプロトタイプを発表している。MRはそのイメージプレゼンを見ると非常に未来的。実用的なものからインタラクティブなものまで様々な活用が想定されるMR、この分野では重ね合わせたMRの現実性を高めるためにサウンドも重要な要素となるだろう。

AmbisonicsによるVR音声の実現は身近にある

VRと一言でまとめても様々な分野に跨っているということを整理したところで、やはり導入編としては、コンテンツのクオリティー確保という意味では未だに高いハードルはあるCinematic VRから話を進めたい。Cinematic VRのいちばん身近な視聴環境はなんといってもYoutube VRとFacebook 360ではないだろうか?スマホを装着する簡易的なVRゴーグルでコンテンツを視聴できるため、まだVRを試したことがない方は是非ともVRがどの様な世界なのか体験をしていただきたい。
 
まずは、これらのコンテンツの映像部分に関して見ていきたい。音響制作をするにあたりどの様な映像に音声を付けていくのか?という要素は非常に重要なことである。Youtube VRもFacebook 360もEquirectangular(エクイレクタングラー)=正距円筒図法という方式で球体を平面に伸ばした動画を扱う。一見、世界地図でよく使われるメルカトル図法と似ているようだが、平面への引き伸ばし方法が異なるものだということを付け加えておく。大抵のVRカメラで撮影した動画は、カメラの内部でこのEquirectangular動画として記録されるか、付属のソフトウェア等でEquirectangularへと変換することが可能である。
 
音響制作としては、このEquirectangular動画にあわせてパンニングを行い音を配置していくこととなる。その配置された音をこのYoutube VR、Facebook 360の場合はAmbisonicsを呼ばれる音声フォーマットで書き出す、ともにVR再生時に試聴している向きに応じて追従する音声方式をAmbisonicsで実現しているわけだ。再現の正確性ということを考えればオブジェクト・オーディオで配置していきたいところだが、残念ながら現在それには対応していない。

1st Orderと呼ばれる最低限の方式となるが、たったの4chで全天球の音声を表現できるという点がAmbisonics音声の特徴。やはり4chということで、音像定位の正確性という部分に課題は残るものの、Internet Streamという制約の中での再生を考えればベストなチョイスということになるのだろう。Ambisonicsはチャンネル数を増やしたHOA=Higher Order Ambisoncisも作られ始めている。チャンネル数が増えることで定位の再現性が高まるが、チャンネル数も2nd Orderで9ch、3rd Orderで16チャンネルとそれなりのボリュームになってくる。

VRを実現するツール

Pro Tools 12.8.2以降に付属するFacebook 360 Spatial Workstationの各画面。

ここまではモノラルソースの音声をVR動画=Equirectangular動画に合わせる手法を説明しているが、具体的なツールとしては、Pro ToolsにAudioEase社の360Pan Suiteを導入するというのが一般的。Pro ToolsのVideo Window上にオーバーレイで音をどの位置にパンニングしているのかが確認できる360Pan Suiteは、非常に直感的に視覚情報を使いながらのパンニングを行うことができる。ちなみに360 Panをプラグインとして挟むと、モノラルトラックのアウトプットは1st Orderであれば4chのAmbisonicsとして出力される。この出力されたAmbisonicsは特殊なデータということではなく通常のPCM Audioデータであるため、Pro Tools内部で音量バランスを取りミキシングを行うことが可能だ。Pro Tools 12.8.2以降のバージョンであれば、Facebook 360 Spatial Workstationと呼ばれるプラグインが無償で付属する。Video Window上でパンニングの位置を確認することはできないが、特に追加コストをかけることなくAmbisonicsミキシングが行える環境は整っているということになる。
 
DAW内でのミキシングの話をしたが、もちろんマイクでのAmbisonics収録についてもソリューションが存在する。SENNHEISERのAMBEO VR MICがその筆頭。SENNHEISERはAMBEOというブランドでイマーシブ・オーディオに対してのソリューションのブランディングを行なっている。AMBEO VR MICはその中でAmbisonics収録用のマイクということになる。このマイクで収録した音声は4chの普通の音声データであり、Ambisonic 1st Order A-formatと呼ばれるもの。このマイク出力そのままのデータとなるA-formatをAMBEO A-B フォーマットコンバータという無償プラグインでX,Y,Z,Wという4チャンネルにしたB-Formatに変換し、前述の360 PanやFaceBook360 Spartial WorkstationといったB-formatを用いたプラグインやDAWで扱っていく。
 
Musikmesse 2018ではRODEからNT-SF1と呼ばれるAmbisonics収録用のマイクも登場している。フィールドでのレコーディング用のレコーダーもZOOM F4/F8にはレコーダー内部でB-formatへ変換する機能とヘッドフォンモニターを行う機能が追加されている。通常のレコーダーの場合、それぞれのマイクヘッドの出力を確認することはできるが、単純にSUMして聴いてしまうと訳がわからなくなってしまいノイズチェック程度しか行えないというのが現状であったため、ZOOMの機能追加はAmbisonics収録の際に非常に重宝するだろう。このように毎年行われている各メーカーの新製品発表において、Ambisonicsというキーワードは益々その存在感を大きくしている状況だ。


今回はVR音響世界へゼロから飛び込むということで、まずVRとはどのようなものなのかを中心に進めさせていただいた。単純にAmbisonicsのミキシングを行うということ自体はそれほど難しいことではない。しかしそれが効果的なミキシングであるかどうかということになると、まだまだ試行錯誤をしなければならないのが現状である。そのためには映像が抱えている課題を知ることが重要であるだけでなく、VRコンテンツがユーザーにとって面白い、楽しいと思われるためにはどのようなコンテンツにするべきなのか、そういったメソッドを学ぶ必要があるのではないだろうか。

 
 
*ProceedMagazine2018Spring号より転載

*記事中に掲載されている情報は2018年09月04日時点のものです。