YouTubeに高音質でアップロードするために
- STUDIO 407 酒井崇裕

- 2023年4月3日
- 読了時間: 9分
更新日:9月15日
【YouTubeに高音質でアップロードするためにはどうしたらいいか?】
近年、いわゆるHi-Res(ハイレゾ)でのレコーディングは半導体技術やCodecをはじめとしたソフトウエア技術の進展により、誰でも手が届く範囲のものとなりました。80年代に商品化されたCDの登場によりデジタルオーディオが広く一般に浸透してきたわけですが、CDの黎明期より、そのフォーマットの拡張、つまりハイビット・ハイサンプリングでのレコーディングが模索されてきました。当時は、Hi-Resレコーディングは限られたプロフェッショナルの領域で行われていましたが、今では誰もが手の届く範囲となりました。
しかしながら、せっかくHi-Resでレコーディングしたマスター音源であるのに、後処理のプロセス(ダウンコンバートやネットへのアップロード)で、録った時の鮮度が失われて残念に感じたことがあるかも知れません。CDフォーマットは、16bit/44.1KHzと規定されていますし、ネット配信においては非可逆圧縮方式でのエンコードが一般的です。従って、これらに対応するために避けられない処理として、ダウンコンバートとCodecのプロセスがあり、これよって音質にどのような影響が出るのかを知っておくことは有益だろうと思います。
具体的には、ビット深度を落とす際のディザリング(例えば、32bitから24bit,16bit)とノイズシェイパー、ネットにアップロードする際に必要なエンコード処理、アップロードされたサーバー側での再エンコード、そして再生する際のデコード処理で起こる現象です。こうして見ると、様々な処理を経て音源が最終リスナーへ到達していることになり、つまりは、プロセスを経る度に音質が影響を受けていることになります。
「音質劣化の影響をできる限り最小限にとどめて、ハイレゾマスターの音源をCDにしたり、ネットへアップロードしたい!」。私もその思いを持つ一人であります。これを動機として、どのような事が生じるかを具体的に検証してみました。技術的な説明を省き、実践に役立つデータを揃えましたので、音源制作のヒントにしていただければ幸いです。
【Hi-Resから下位フォーマットへの変換】
ダウンコンバートは、レコーディングした音源をミックスして最終マスターへマスタリングする段に行うことが一般的だと思いますが、そのフォーマットは、ターゲットとするメディアに対応したフォーマットにする必要があります。例えば、CDであれば、16bit/44.1KHz、YouTubeへアップロードする際の音声は96KHz or 48KHz AAC-LCが推奨されています。
ここでは、Hi-Res音源のビット深度を32bitから16bitへ落とした場合について見てみます。元となる音源は20Hz~160KHzのサイン波でフォーマットは32bit/352.8KHzとしました。

まず、ディザー無し(上)を見ると、※量子化ノイズが信号の上下に階段上に生じているのが分かります。一方、ディザー有の方は、ノイズが高域に寄せられて、可聴範囲内にある信号が明瞭になっているのが分かります。
※量子化ノイズ:32bitから16bit分のデータを切り捨て、残ったものを近くのビットに無理やり当てはめることによって生じる低レベルのノイズ
ビット深度の変更に伴って量子化ノイズが発生しますので、度重ねてビット深度を落とすことは避けるべきであることが分かります。
次に見るのは、32bit/352.8KHz→32bit/176.4KHz→16bit/44.1KHzとビット深度の変更は1回とし、サンプリング周波数を2段階で変更した様子です。現実の作業においては、マスタリングはHi-bit、Hi-Samplingで行い最後の段でビット深度と共にサンプリング周波数を下げるという処理をしたい場合があり、EqやLimなどの各種プロセスをHi-Samplingの中間で行うケースを想定しています。

ディザー処理は簡単に言えば、ノイズを加えてノイズを制する処理のことで、音楽制作に限らずデータ処理の世界では広く用いられる概念です。古くは第二次世界大戦時に弾道計算に用いられていた機械式計算機が、不安定な爆撃機内で使用したときの方が正確な数値を出したことが知られています。感覚的には少し不思議な感じもしますが、数学的に検証可能な処理となっています。
上記で示した現象は、最終マスターを仕上げるまでの過程で、どこの段階でマスタリングを施し、どこの段階でビット深度を落とすかという戦略的的なフローを検討するヒントになるかも知れません。マスタリングでは、レベルやダイナミックス処理、また、Eqや場合によってはエフェクト処理もしたくなるかも知れません。その場合、デジタル領域では必ず演算処理が行われていることも留意すべきです。アナログと違ってデジタル領域での操作は、演算処理と同義なので、bit深度とサンプリング周波数に応じて計算過程が異なってきます。
【ディザリングとノイズシェイパー】
ビット深度を落とす場合にはディザー処理が必要不可欠であることが分かりましたが、このディザー処理には様々なアルゴリズムがあり、また、ノイズを可聴範囲に分散させるフィルターも音響心理学の知見を用いたものなどバリエーションがあります。以下にそのいくつかを示します。

左右の3つの列がディザーアルゴリズムの種類、縦軸に沿ってノイズシェイパー(可聴範囲に分散させるフィルター)のカーブの種類による分散の違いを示しています。ざっと眺めると、おおよその傾向が見て取れると思います。可聴範囲の周波数に満遍なく薄く分散させてあるもの、可聴範囲の高域(10KHz~20KHzあたり)にノイズを寄せてあるものなど。
どれを選択するのがよいのかは、実際に音として聴きながら判断するのがよいと思います。音楽の種類によっても聞こえが変わってくると思います。
【Hi-Resまでの経緯を示す例】
今回、ディザーの検証をするにあたり、ハイレゾ・レコーディングをする以前にはどうなっていたのか気になりましたので、参考に記しておきます。
最後のもの以外は同一アーティストで全てピアノ曲。レコーディングエンジニアは上から4つまで同一で、残り二つは各々別エンジニア。マスタリング・エンジニアは記載無しのものがあったので省きました。

1987年~90年代初頭では、44.1 or 48KHz/16bit でレコーディングするのが殆どで、マスタリングでビット深度を落とす処理は必要ありませんでした。しかしながら一部で24bitレコーディングが行われており、bitマッピングの技術が各社から登場。これと並行してdCS社を代表とする96KHz/24bitのコンバータが登場して、皆がHi-bit / Hi-Sampingでレコーディングするようになってきました。このあたりがHi-Resレコーディングの黎明期と言えると思います。
こうした経緯を気にしつつ、グラフを見ると興味深いことが見て取れます。ことに、4番目のものは、音源収録は1994年ですから、たぶん、マスターは44.1 or 48KHz/16bitであると思われますが、Noise_Shapingを示す特性が見て取れるので、Upコンバートした後、マスタリングを施したと推測できます。根拠としては、実はこの4番目のものは、2022年の5番目の音源と一緒に同一ディスクとして発売されているもので、2022年の新録はHi-bit / Hi-Samplingで録音されていることが想像され、また、Noiseの形状が同一であることから、1994の音源もマスタリングの段でRe-Samplingで統一されたと考えられます。最後の2020年の音源は、Noise_Shapingの形状が緩やかとなっており、Dither処理のアルゴリズム違いと思われます。
【ネットアップロードで生じること ーYouTubeを例として】
これまでは、Hi-Resマスターからマスタリングする過程で検討すべき事項を述べてきましたが、現状ではネットサービスへのアップロードで音源を聴いて頂く機会の方が多いと思われます。出来上がったマスターをアップロードする場合、音声のみのサービスだけでなく、YouTubeをはじめとする動画としてアップロードするケースが多く、そこで生じるのが、Codecで生じる音質変化です。アップロード用として動画をパッケージする場合、映像Codec、音声Codecの組み合わせを選ぶことになり、この選択肢は多岐に渡ります。
可能な限り画質も綺麗で音質劣化も少なくしたいところですが、観てもらいやすいデータにするには、ユーザのネット環境を考えたデータサイズ、圧縮率と品質の最適バランス、特徴を踏まえたCodecの選択など、検討項目が多く、また、かけられる時間的なリソース、つまりレンダリング時間の配分も考えなくてはいけません。加えて、Codecの技術進歩は日進月歩で進んでいますので、利用するサービスが採用しているCodecの状況をウォッチすることや、動画編集ソフトに組み込まれているCodecで有用なものはどの組み合わせなのかを理解することも大切だと思います。Codecからは外れますが、アップロードするストリーミングサービスが採用している基準となるラウドネスレベルを知っておくこともネット用のマスタリングに必須事項です。
ネットアップロード用のデータ制作については、私もまだ模索中なのですが、ここでは、YouTubeでの公開を想定した、データ作成、アップロード、YouTube再生のプロセスで、音源データがどのような影響を受けるのかを例示したいと思います。これまでと同様、レコーディングはHi-Resで行っていることを条件とします。また、焦点とするのは音声データの変化についてのみとし、画質変化については触れません。
まず、YouTubeのサーバ側のCodecですが、ステレオ音声の場合、現在Opusが使われています。Opusは優れた品質を持っていることが示されており、YouTubeも近年になってこれにスイッチしました。YouTubeの再生画面上でCodecを確認することができます。

従って、YouTubeへアップロードする動画は、Opusでエンコードされることを前提にして、最適なフォーマットで仕上げることが目標になります。
ここでは例として音声を以下のパターンでレンダリングしてYouTubeへアップロード、そしてYouTubeからの音声をデジタルで記録しグラフ化しました。動画に用いた音声データは、32bit/384KHz(元素材)→32bit/192KHz(ダウンコンバート)→Ditherを施し24bit/48KHzにしたものを動画編集ソフトへ取り込んでレンダリングしました。
動画ファイルへの書き出し音声フォーマット
・24bit_48KHz_圧縮無し_PCM(MKV)
・16bit_48KHz_AAC(MP4)#1
・16bit_48KHz_AAC(MP4)#2 エンコーダ違い
これらの動画データをYouTubeへアップロードした後、YouTubeから再生された音声をデジタル経由で記録し、グラフ化しました。




結果は少し意外なものになりました。予想としては無圧縮PCMの音声データがYouTubeサーバ側でOpusとしてエンコードされる方が、AACをアップロードしてOpusでエンコードされるよりも有利だと思っていたのですが、思ったよりも差は出ませんでした。傾向としては、AACで音声をエンコードした動画データの方が可聴帯域全体にわたってノイズが拡散しており、PCMの方は筋状のノイズがまばらに発生しているようです。信号の近傍を眺めると滲み加減はAACの方が若干強いようにも見えますが、有意な差とは言えない程度に思われます。聴感上での比較でも、若干、PCMの方が音のフォーカスがあるように聞こえますが、気のせいの範囲と言われれば自信をもって有意であるとは言えない程度でした。
【おわりに】
音楽制作の最終過程に至る間には、様々なプロセスが介在しており、とくに、ネットを通じて音楽を楽しむ割合が増えていく状況で、ネット時代における最適なマスタリングとコーデックの扱いは明確に確立されているとは言えない状況だと思います。また、IT由来の技術進展はスピードも速く、これに対応していくことも課題だろうと思います。今回は、そうした状況を鑑み、ヒントとなるようなデータを例示させて頂きました。参考にして頂ければ幸いです。




link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link
はじめまして
大変興味深い記事でした。
質問なのですが、レコーディングから24bit48kHzで行い、書き出しも24bit48kHzで行った場合ディザリング不要かと思いますが、その後YouTubeにアップロードしてOpusにエンコードされるのであればディザリングは必要になるのでしょうか?