Takahiro Sakai

1月30日7 分

SNS 投稿 Codecによる音質劣化について

最終更新: 2月1日

【はじめに】

昨年の4月にHi-Resレコーディングをしたマスター音源をリリースする際の後処理とプロセスによって音源データがどのような影響を受けるのかを例示しました。具体的にはビット深度を落とす場合のディザー処理とノイズシェイパーの話題、そして、YouTubeを例としたアップロードされた音源がどのように変化するかをグラフを示しながら説明しました。

Hi-Res収録の後処理について ーDitheringからStreamingサービスへのアップロードまでー

しかしながら、ネットサービスが採用しているCodecによる音質変化については、少し生煮え感もあり、更に詳しく検証した方がより理解が進むと考え、今回、新たに検証してみましたので、ご参考にして頂ければ幸いです。

前回の検証で用いたのは、20Hz~160KHzの中で、特定の周波数の信号をステップ状に入力したものでしたが、多くのCodecが採用している、圧縮アルゴリズムは信号の動的挙動に応じて、ビットを間引く処理が行われており、音響心理学の知見を用いたものが主流となっています。具体的には、等ラウドネス曲線を圧縮の閾値とする方法、また、マスキング効果を利用した方法などです。ごく簡単に言えば、人間の耳に聴こえないレベルの音を間引き、大きな音でマスキングされる音を省略するといったイメージです。実際の圧縮のアルゴリズムはもっと手の込んだ複雑な処理がされており、数学的な情報圧縮(ハフマン符号化など)が行われています。

以上を鑑み、今回は、実際の楽音をアップロードして聴感の違いを示すことを主目的とし、付加情報として、20Hz~20KHzのスイープ信号を入力した場合にどのような状態になるのかを目視できるようなグラフを用意しました。また、前回はYouTubeだけを取り上げましたが、FaceBookとX(旧Twitter)への動画投稿も多いことから、これらへ動画投稿した場合の音質変化もカバーしました。

【動画作成時に採用する音声Codecの違いによる検証】

動画音声は筆者がレコーディングしたピアノの音源(32bit / 352.8KHz)をマスタリングし、適性に24bit / 48KHzにダウンコンバートしたものを動画音声として取り込み、以下の3種にエンコードしアップロード用の動画としました。

 

動画音声

・AAC_LC 256kbps

・Opus 256kbps

・PCM 24bit/48KHz(圧縮無し)

まず、20Hz~20KHzのスイープ信号をグラフで見てみます。

【YouTubeによる音質変化】

オリジナル(PCM 24bit/48KHz)

AAC_LC 256kbpsで作成した音声データをYouTubeへアップロードした後に再生したもの

Opus 256kbpsで作成した音声データをYouTubeへアップロードした後に再生したもの

PCM 24bit/48KHzで作成した音声データをYouTubeへアップロードした後に再生したもの

オリジナルに比べて変化が少ない順(音質劣化が少ない)は、PCM→Opus→ACC_LCという並びに見えます。とくに500Hzから上にかけて、ACC_LCはかなり広い範囲に滲みが及んでおり、中高域での音質劣化はPCMおよびOpusより激しいことが見て取れます。

一方、Opusでエンコードされた音声がYouTubeでどのように処理されるのかも興味がある点だと思います。YouTubeでは各種音声データはOpusにエンコードされますので、事前にOpusにエンコードした音声を準備しておけば、YouTubeのサーバ側での再エンコードを避けられるかも知れません。しかしながら、グラフで見る限りPCMとOpusでは微差ではありますが違いが見て取れます。従って、Opusでアップロードしても再エンコードはされてしまうということが言えると思います。

【音楽をアップロードした場合の聴感上の違いについて】

それでは実際に音楽動画をコーデックを変えてアップロードした結果を聴き比べてみます。分かり易いように、オリジナルとの差分を抽出して比較してみます。差分の音声が小さければ小さいほど、また、オリジナルの音楽イメージがより感じられないものほど、Codecによる音質劣化が少ないことを意味します。

※差分のデータは音量が小さいのでヘッドホン等でお聞きください。

オリジナル(PCM 24bit/48KHz)

オリジナルとの差分:AAC_LC 256kbpsで作成した音声データをYouTubeへアップロード

オリジナルとの差分:Opus 256kbpsで作成した音声データをYouTubeへアップロード

オリジナルとの差分:PCM 24bit/48KHzで作成した音声データをYouTubeへアップロード

いかがでしたか?スイープのグラフで目視した通り、AAC_LCとオリジナルとの差分は、PCMでアップロードしたものに比べ、楽曲の旋律やコードがより感じられるものとなっていると思います。つまり、AAC_LCが、よりオリジナルとのゆがみと歪みを多く含んでいると言えると思います。

【FaceBook動画投稿による音質変化】

次に、Facebookへ動画投稿をした場合について見ていきます。

先と同様に、20Hz~20KHzのスイープ信号をグラフで見てみます。

オリジナル(PCM 24bit/48KHz)

AAC_LC 256kbpsで作成した音声データをFacebookへアップロードした後に再生したもの

Opus 256kbpsで作成した音声データをFacebookへアップロードした後に再生したもの

PCM 24bit/48KHzで作成した音声データをFacebookへアップロードした後に再生したもの

オリジナルに比べて変化が少ない順(音質劣化が少ない)は、PCM→ACC_LC→Opusという並びに見えます。全てに共通して言えることとして、YouTubeへアップロードしたものに比べかなり酷い劣化が見られます。どういうプロセスで生じるのか不明ですが、原音から反射したような何本もの細い筋が全域にわたって認められますし、8KHzからは、かなりの音量で折り重なったような歪みがマジックペンで落書きしたように帯となって出現しています。また、高域は20HKzまでは再生できず、17.5KHzあたりで途切れてしまっています。

注目すべきはOpusでエンコードした音声データは最も劣化が酷く、高域のみならず低域も歪みの成分が広く滲んでおり、FaceBookへの動画投稿をOpusで行うことは最悪であることが分かります。AAC_LCはPCMと比べても顕著な差は認められず、これはFaceBookのサーバ・エンコードが現在のところAAC_LCであることが関係していると思われます。しかしながら同じコーデックでも再エンコードはされるようで、AAC_LCの2KHz~7KHzあたりの歪みが増えていることが確認できます。

それでは、YouTubeのときと同様に音楽データで検証してみます。

※差分のデータは音量が小さいのでヘッドホン等でお聞きください。

オリジナル(PCM 24bit/48KHz)

オリジナルとの差分:AAC_LC 256kbpsで作成した音声データをFaceBookへアップロード

オリジナルとの差分:Opus 256kbpsで作成した音声データをFaceBookへアップロード

オリジナルとの差分:PCM 24bit/48KHzで作成した音声データをFaceBookへアップロード

【X(旧Twitter)動画投稿による音質変化】

最後にX(旧Twitter)動画投稿による音質変化について見ていきます。Xの動画投稿は音声がPCMおよびOpusのものは受け付けませんでしたので、AAC_LCでエンコードしたものだけを掲載します。

20Hz~20KHzのスイープ信号をグラフで見てみます。

オリジナル(PCM 24bit/48KHz)

AAC_LC 256kbpsで作成した音声データをXへアップロードした後に再生したもの

Xでのエンコードによる劣化は、想像していたよりも酷くはなく割と綺麗なものになっていました。FaceBookと比較してもかなり劣化が抑えられています。ただし、高域は15KHzまでが限界で、20KHzに至る前に途切れています。

音楽データをアップロードした場合はどうでしょうか。

※差分のデータは音量が小さいのでヘッドホン等でお聞きください。

オリジナル(PCM 24bit/48KHz)

オリジナルとの差分:AAC_LC 256kbpsで作成した音声データをXへアップロード

Xの場合はコーデックの別による比較ができなかったため、YouTubeとFaceBookへアップロードした場合の差分音声を聴き比べてみてください。滲みは少ないもののオリジナルの楽音イメージの残像のようなものが一番強く感じられます。劣化の程度差はもちろんですが、それぞれ圧縮アルゴリズムによる癖のようなものがあり、これが何となく感じる音質の違いになっているような気もします。

【最後に】

以上、YouTube、FaceBook、Xへ動画をアップロードした場合の音質変化について具体的な素材をもとに検証してきました。SNSの音声品質については、投稿目的によって使い分ける人も多いと思います。もちろん、会話を判別するとかスナップ動画の様子が分かるというレベルで言えば、どのサービスも申し分のないクオリティが担保されていると思います。

しかしながら、音楽コンテンツを高いクオリティーで聴いてもらいたいという場合は、少し立ち止まって考える必要があるかも知れません。

例えば、FaceBookとXへの投稿はタイムライン上で自動再生されので、露出頻度もしくは再生回数の面で有利になるため、初動プロモーションとして活用するケースなどがあろうかと思います。また、各SNSのユーザ層(年齢や音楽ジャンルの嗜好など)に応じた投稿内容ということも考慮の対象になるかと思います。

これらを踏まえて、音質は犠牲になるがマーケティングの観点から再生回数が稼げるSNSを選択する場合もあると思いますが、その一方で音楽を再生させるにはそぐわない著しい劣化ノイズを含んだ音楽を数多く拡散することになる、ということには留意してもいいかも知れません。

ひとつの判断材料して、ご参考にして頂ければ幸いです。

    1280
    0