本サイトでの Cookie の使用について

Shibuya 03-3477-1776
Umeda 06-6131-3078

«Headline

Author

前田 洋介

[ROCK ON PRO Product Specialist]レコーディングエンジニア、PAエンジニアの現場経験を活かしプロダクトスペシャリストとして様々な商品のデモンストレーションを行っている。映画音楽などの現場経験から、映像と音声を繋ぐワークフロー運用改善、現場で培った音の感性、実体験に基づく商品説明、技術解説、システム構築を行っている。

Fraunhofer IIS@Erlangen / MPEG-Hを生み出した世界最大の音響研究所

これまでにもその情報を発信してきたMPEG-H。次世代音声コーデックとしてドイツのFraunhoferが開発したこの規格、イマーシブ、インタラクティブといった次世代のエンタテインメントを担う規格となっている。今回はその開発元であるドイツ・ニュルンベルグ郊外のエルランゲンにあるFraunhofer IISを訪問し、色々とその実際を見せていただいた。改めてMPEG-Hの現在地と、その制作環境、さらにはその次のステップまで踏み込んだ情報をお届けしていきたい。

イマーシブ、インタラクティブ

📷SONY 360 Reality Audioではマスターファイルの器としてMPEG-Hを用いている。

それでは改めてMPEG-Hをおさらいしておこう。MPEG-Hは、Fraunhofer IISが次世代の音声コーデックとして発表した規格。イマーシブへの対応はもちろんだが、インタラクティブ音声への対応という点が他のコーデックとの最大の差別化ポイントではないだろうか。

まずは、イマーシブという部分を見ていきたい。一番身近なMPEG-Hとして挙げられるのははSONY 360 Reality Audioではないだろうか、フルオブジェクトの制作環境を持つこのフォーマット。各オブジェクトが持つメタデータを含んだ配信用のマスターファイルの器としてMPEG-Hが採用されている。非圧縮のオブジェクトメタデータを含むオーディオコーデックといえばADM BWFファイルがあるが、圧縮でメタデータを持つオーディオコーデックとなるとMPEG-Hがその筆頭となる。

MPEG-Hが持つもうひとつの特徴であるインタラクティブに関しては、放送分野での活用が期待されている。実際の事例として、すでに韓国、ブラジルにおいてはMPEG-Hが地上波放送の次世代コーデックとして採用され、韓国では4K地上波の次世代放送規格として平昌冬季オリンピックのタイミングから、また、ブラジルではリオデジャネイロ夏季オリンピックのタイミングから実運用が始まっている。

📷IBC 2023でソフトウェアベースでのリアルタイムエンコーダーを展開するSalsa Soundのブース。

そこでは最大15chのオーディオを伝送することができるMPEG-H(Level 3)が採用され、視聴者がリモコンでナレーションのレベルを上げ下げしたり、放送局側が用意する複数のプリセットされたバランスで音声を聴くことができるインタラクティブオーディオを実現している。スポーツ中継を例にとれば、解説の有無や応援席のレベルを中心にしたプリセットなどを選択できる。伝送できる15chのオーディオの組み合わせは自由で、5.1chのサラウンド放送にレベル調整を行いたい個別のトラックを加えてインタラクティブ性を持たせる、といったことが可能だ。もちろん、イマーシブ音声やオブジェクトオーディオを放送することもできる。

日本国内における次世代放送規格

現在、日本でも次世代放送規格に関しての議論が積極的に行われており、総務省から2023年7月に「放送システムに関する技術的条件」として、次世代地上波放送の概要が示されている。高度地上デジタルテレビジョン放送方式として、放送電波へのデジタル符号情報の伝送方式に始まり、映像の圧縮形式などとともに音声に関しても概要が示されている。入力フォーマットとしては「22.2マルチチャンネル音響に対応」とあり、現在運用されている4K / 8K衛星放送と同様のフォーマットが踏襲される。

それに加え、オブジェクトベース音響への対応も明記されているのが新しいところ。音声の符号化方式としては本記事で取り上げているMPEG-Hとともに、AC-4が併記されている。AC-4とはDolbyが提唱している次世代コーデックであり、実運用をスタートしている世界各国ではMPEG-HかAC-4かのどちらか一方を採用するケースが多いが、日本では両方式が採用されるという方向だ。なお、それぞれ準拠する規格はMPEG-H : ISO/IEC 23008-3、AC-4 : ETSI TS 103 190-2である。また、ペーパーに示された入力チャンネルは56ch。このチャンネル数はMPEG-H Level 4で規定された最大チャンネル数である。現在運用されているMPEG-H Level 3は16chとなるため、そこからするとかなりの増加と言える。これは、22.2ch放送時にも差し替え音声によるインタラクティブ放送を行うことができるチャンネル数を考慮したためとされている。


次世代放送では、放送自体の効率化により伝送可能なデータレートの向上が目論まれている。具体的には現在の地デジの16.85Mbpsから、22.25Mbpsへの向上となる予定だ。映像圧縮に関してはH.266(VVC)の採用。これは、現在一般的なH.264の二世代後継の圧縮技術である。音声も同様に現在のMPEG-2 AACからの圧縮技術の進歩もあり、さらに多くのチャンネル伝送を実現するものとされている。一例とはなるが、SONY 360 Reality AudioのMPEG-H伝送では、24chを1.5Mbpsで伝送している。この高効率な圧縮という部分に関しては、MPEG-HもAC-4もコーデックは違えど同様と言える。両者ともに、オブジェクトオーディオを扱うことができるというところも同様だ。両規格とも国際規格として規定されており、どのように両規格を使い分けていくかという議論が今後行われていくだろう。

執筆時点では、明確に次世代放送への移行タイムラインが提示されているわけではない。だが、他国ではすでに順次移行を開始していることを考えると、それほど遠くない未来に移行が開始されることは間違いない。着実に日本国内でも次世代の地上波デジタル放送の規格整備が進行している。すでに海外では放送がスタートしている事例も数多くある。技術の進歩はとどまることは無い、徐々に次世代の規格として採用されることとなっているこれらを知り、触れておくことは重要となる。

MPEG-Hをどう作るのか

AC-4に関しては、乱暴な言い方をしてしまえばDoby Atmosである。一方MPEG-Hに関しては、まだまだ国内では未知のものとして捉えられることが多いのではないだろうか。しかし、MPEG-Hが用いられていくという流れはすでに大きな流れとしてあり、Pro Tools 2023.6でインストーラーが統合されたりと具体的な形で制作環境が整い始めている。

放送におけるMPEG-Hには2つの制作パターンがある。一つはBroadcast、生放送でのMPEG-Hである。NABやIBCのレポートでもお伝えしてきているが、ハードウェアでのリアルタイムエンコーダーが各社より登場している。SDI信号にエンベデッドされた音声に対してメタデータを付加するという動作により、リアルタイムエンコードを行うこれらの機器は、すでに実際の運用に供されている。現状ではSDI信号に対してのエンコードを行う製品となり、MPEG-H Level 3の16ch仕様となっている。IBC 2023では、ソフトウェアベースでのリアルタイムエンコーダーであるSalsa Soundも登場し、その選択肢が着実に増えている。


📷Fraunhoferからリリースされている制作向けのMPEG-Hエンコーダーはさまざまなユーティリティーが提供されている。Mac OS、Windowsともに対応となり、ほとんどのワークフローにおいて不足することは無いだろう。

一方、制作向けのMPEG-Hエンコーダーは、Fraunhoferからリリースされている純正ソフトのみというのが現状である。とはいえ、やり直しが効く制作環境ということを考えれば、この純正のエンコードソフトで必要十分であることは間違いない。イマーシブオーディオにも、インタラクティブオーディオにもしっかりと対応している。Fraunhoferからはさまざまなユーティリティーが提供されており、マスターファイル視聴用のMPEG-H VVPlayer、Video FileにMPEG-Hを畳み込むためのMPEG-H Encording and Muxing Tool、メタデータ修正用のMPEG-H Info Toolなどの製品も同梱されているため、ほとんどのワークフローにおいて不足することは無いだろう。すでにMac OS、Windowsともに対応している。

イマーシブオーディオ制作においては、MPEG-H Authoring Plug-inというソフトウェアが、DAWのプラグイン(AAXおよびVST3)として提供されている。3Dパンニングを行うことができるこのソフトからファイルをExportすることで、3Dメタデータを持ったMPEG-Hのオーディオデータが作成できる。22.2chのパンニング、7.1.4chへの対応、フルオブジェクトとしてのファイル書き出しが可能と、次世代の放送用オーディオへの対応をしっかりと済ませている。

科学技術を世の中で使えるようにする

このMPEG-Hの開発元であるFraunhofer IISへの訪問を実現したのでその模様をお伝えしたい。Fraunhofer IISは、欧州最大の研究機関であるFraunhoferの一部門となるIIS=Institute for Integrated Circuits、日本語にすると集積回路研究所だ。Fraunhoferの75拠点ある研究所の一つであり、MP3の生みの親として世界中に知られる研究所である。Fraunhoferは応用研究をテーマとし、科学技術をどのように世の中で使えるようにするか、ということを民間企業からの委託研究として行っている。実際にFraunhoferの研究予算の7割は民間企業からの委託研究費で賄われているそうだ。

今回訪問したFraunhofer IISは、ドイツの南部バイエルン州第2の都市であるニュルンベルグの隣町、エルランゲンにある。ニュルンベルグは中世の城壁に囲まれた美しい旧市街をもつ伝統ある都市。IISがあるエルランゲンは大学都市であり、1700年代にその起源を遡ることができる伝統あるドイツ12大学のひとつ、エルランゲン大学がある街だ。また、第二次世界大戦後のドイツを代表する電機メーカー、シーメンスが移転してきたことで発展を遂げた街でもある。

このFraunhofer IISの研究の大きな指針のひとつが「オーディオ・メディア技術」。集積回路研究所という名前からもわかるように、デジタル技術の発展とともに符号化の技術を研究し、それがMP3へと繋がっている。その後もAAC、HE-ACC、xHE-ACC、MPEG-Hと各世代を代表するコーデックを開発してきている。現代の携帯デバイスになくてはならない技術となっている高度な圧縮技術。そして、エンタテインメントを支えてきた技術とも言えるだろう。その現在進行系の技術がMPEG-Hである。なお、すでに次世代の技術である「MPEG-I」も姿を現し始めている。

全フォーマットを正確に再現する研究スタジオ

📷大量のスピーカーが設置された試聴室。30°、45°、60°など各フォーマットに合わせた正確な位置に設置が行われ、Dolby Atmos / Auro 3D / SONY 360RA / NHK22.2などの正確なモニターが可能だ。水平、上層に2つの巨大なリングを設置し、そこにスピーカーを設置することで完全な等距離での設置を実現している。

研究所に到着してまず案内されたのが、研究のために使われているというスタジオ。Dolby Atmos、Auro 3D、NHK 22.2chといった現在規格化されているすべてのフォーマットのスピーカー配置を正確に再現し、MPEG-Hでコーディングした際の聴こえ方などを検証している。ここでのさまざまな実験をスムーズに行えるように、カスタムで作ったなんと6000ch超のルーティングが可能なモニターコントロールボックスでシグナルルーティングを行っているそうだ。

そして、スピーカーはすべて銘機「Musikelectronic Geithain / RL904」で揃えられているあたりがドイツらしい。Musikはご存知の通り旧東ドイツ、ライプツィヒで誕生したメーカーだ。その多数のスピーカーを正確な位置に設置するために、巨大な円形のトラスが吊るされている。このトラスだけで1トンを超えているということ。様々な実験を正確に行うために防音もしっかりとなされ、2メートル近い遮音層が確保されているということだ。遮音よりも響きを重視しがちな欧州のスタジオとは一線を画す、研究所らしいスタジオである。

ここではMPEG-Hでコーディングされた様々なイマーシブ・フォーマットの音源を聴かせていただいた。特定のフォーマットを持たないMPEG-H、器としての柔軟性、多様性を改めて実感した次第である。続いて、インタラクティブ・オーディオのデモとして、スポーツ素材でのダイアログの上げ下げ、ナレーションをオフにしてスタンドの観客音声のみ、などを切り替えられる様子を見せていただいた。また、音楽ライブの素材ではステレオ素材とイマーシブ素材の聴き比べ。これもMPEG-Hであればひとつのパッケージに同時に入れておくことができる。最高の環境でMPEG-Hの多様な可能性を体験することができた。

最終アウトプットまで担保する研究設備

📷シアタールーム。この部屋も現在運用されているすべてのフォーマットに対応するために、大量のスピーカーが設置されている。

また、リビングルームを模した視聴室もご案内いただいた。ここには様々な民生の再生機器が揃えられ、それらの動作のチェックや聴こえ方のチェックなどが行われているということだ。もちろんではあるが、制作向けの技術提供だけではなく再生機器を作るメーカーに対しても同様に技術協力を行っているFraunhofer。これまでも数多くのスタンダード(規格)を作ってきた研究所である。しっかりと最終の出口まで担保して、実際のユーザーの経験に対してもコミットしているということが感じ取れた。

そして、別のフロアには映画館規模のシアタールームがある。ここでは、さまざまなCinema向けのオーディオフォーマットの視聴体験が可能であり、それらの違いについてなどの研究が行えるようになっていた。筆者もここまでのマルチフォーマットのシアタールームは初めてである。ほとんど見ることのない、Aruo 3DやDTS-Xに対応したスピーカーの設置は新鮮であった。符号化技術の研究開発と言ってもやはり聴感としての確認は重要なファクターであり、様々なフォーマットを実際に試せる(聴ける)設備を持っているFraunhoferが「世界最大の音響研究所」と呼ばれるのもよくわかる。様々な環境やケースにおいてどのように音が聴かれているのか?想定されるほぼすべての体験が行える施設がここには揃っていた。

最後に、MPEG-Hはまさにいま羽ばたこうとしているところだが、その次はどのような進化を考えているのか?というお話を聞いてみた。すでにご存知かもしれないが、Fraunhoferでは「MPEG-I」というもう一世代先の技術開発をすでに終わらせている。イマーシブとインタラクティブの次として、AR / MR向けの技術を映像コーデックとともに開発をしているということだ。イマーシブであることは当たり前で、さらにインタラクティブ性を高めると考えるとやはりAR / MRに行き着くのであろう。プロセッサーの処理能力など現時点では課題も多いが、さらなる体験をユーザーに与えるための技術が形になりつつある。ベースとなる要素技術は揃ってきているので、それらをどのようにユーザーが使いやすいように形にしていくのか?ユーザーの端末の処理負荷を軽減するためにはどうしたら良いのか?具体的な課題解決に取り掛かっているそうだ。Fraunhoferの考える次世代のエンターテインメントは、パーソナルに楽しめるAR / MRということのようだ。これはキーワードとして覚えておいて損はない、いまからでもそれらの情報に対してアンテナを張っておいたほうが良いというサジェスチョンであるように感じられる。

📷(左)リビングルームを模した試聴室。サウンドバーなど民生の製品がずらりと揃う。(右)研究用の小規模な試聴室。この部屋も左ページの部屋と同様にマルチフォーマット対応の視聴環境となっている。

筆者にとっては念願とも言えるFraunhofer IISの訪問。MP3を代表に世界を変えたテクノロジーの震源地。3度の増築によりどんどん拡大を続けているこの大きな研究所で、オーディオ分野だけでも300名以上が働いているという。最先端となるMPEG-I、そしてその次の技術、そこから派生するテクノロジーもあるだろう。科学技術を実用に変えていくFraunhoferからは目が離せない。


 

*ProceedMagazine2023-2024号より転載

SNSで共有
*記事中に掲載されている情報は2024年01月04日時点のものです。