音が“そこにある”と感じるとき :アーティファクトからエナクトメントへ 空間聴覚の科学
- STUDIO 407 酒井崇裕
- 7月3日
- 読了時間: 19分
更新日:7月4日
はじめに
より自然なステレオ録音の実現を目指し、マイクロ多孔質吸音球体バッフルを用いた新たな収録手法の検討を進めています。理論的枠組みの構築とシミュレーションを経て、実測データの検証に至り、現場での試用に向けた道筋が見えつつあります。
本システムは、ABステレオ録音において避けがたい「ステレオイメージ」と「コムフィルタリング」のトレードオフ問題を緩和し、より自然で明瞭なステレオイメージの獲得を目的としています。
マイク間隔や吸音球体(いわゆる「サイレントボール」)の有無など、複数の構成バリエーションによる実測データからは、フィルタリング・パターンの違いが明瞭に確認できます。しかし、静的なマイクロホンによる収音と、人間の動的な聴覚──すなわちアクティブセンシング──とでは、本質的に大きな隔たりがあります。現在検討中のシステムは、人間の聴覚をある種のプリミティブな形で模倣する試みと位置づけられますが、この差異を理解することは、収録における知覚的アプローチを深める上で極めて有意義と考えています。
本稿では、まずABステレオ録音で生じる現象の整理から始め、認知科学や神経科学の知見を参照しながら、人間の知覚とマイクによる収音との本質的な違いについて考察します。ここでは、現代の認知科学において注目されている理論、「エナクティビズム(enactivism)」を理論的基盤とします。この立場では、認知とは既存の外界の内部表象を構築することではなく、有機体と環境との動的かつ身体化された相互作用を通じて、世界を生成(enact)していく営みであると捉えられます。
序論:エナクティビズム:知覚とは世界を創り出す行為
本稿は、音響工学における技術的な現象から出発し、人間の知覚の本質に関する深い問いへと至る分析です。音響技術におけるコムフィルタリングのようなアーティファクト(人工物)が持つ「不自然さ」は、私たち自身の聴覚が持つ「自然さ」に関する根源的な真実を明らかにする鍵となります。
ここでの目的は、この問いに対して、多角的な分野の知見を統合した分析を提供することにあります。本稿が最終的に論証するのは、静的なマイクロフォンと動的な人間の聴き手との間の差異は些細なものではなく、それは受動的なセンサーと能動的で身体化されたエージェント(行為主体)との間の本質的な差異であるという点です。このテーゼは、心理音響学、神経科学、発達心理学、そして認知科学からの証拠が一致して強力に支持するものです。本稿は、知覚とは世界を創り出す熟練した行為であると見なす「エナクティビズム」という強力な理論的枠組みの中で、私たちの聴覚的現実がどのように構築されるかを明らかにすることを目指します。
分析は三部構成で進行します。第1部では、音響物理学と心理音響学の基礎を固め、音響におけるフィルタリング現象の技術的な側面を解説します。第2部では、「能動的な聴き手」という概念を探求し、人間の聴覚を機械的な録音と区別する多感覚的なプロセスを詳述します。そして第3部では、知覚の根底にある発達的・哲学的基盤を掘り下げ、私たちの聴覚的現実がいかにして生涯にわたる身体化された経験を通じて構築されるかを示します。
第1部:聴覚空間の物理学と心理音響学
本セクションでは、音響捕捉の物理学と聴覚の心理音響学における強固な基盤を確立します。まず、音響技術におけるコムフィルタリング現象を解説し、次にその生物学的な類似物である頭部伝達関数(HRTF)に焦点を移し、フィルタリングが人間の知覚にとっていかに根源的であるかを示します。

1.1 回避不可能なフィルター:位相、音色、そしてステレオイメージ
コムフィルタリングは、直接音と、それよりわずかに遅れて到達する音(壁からの反射音や、もう一方のマイクロフォンからの音など)が、ある一点で混合されることによって生じる音響現象です。この時間差により、特定の周波数では波形の位相が一致して増幅され(ピーク)、別の周波数では位相が反転して打ち消し合う(ノッチ)ことになります。結果として得られる周波数特性は、櫛(comb)の歯のように見えることから、この名が付けられました。
このフィルタリングが知覚に与える影響は顕著であり、しばしば「金属的で、不自然、とげとげしく鋭い音」と表現されます。これは、フィルタリングによって、楽器や声の音色を特徴づける上で重要な基本周波数や倍音成分が欠落するためです。
A-B方式(スペースド・ペア方式)は、通常2本の無指向性マイクロフォンを平行に設置し、音源から各マイクロフォンへの到達時間差を利用してステレオイメージを創出する録音技術です。ここにおいて、ステレオイメージの広がりとコムフィルタリングの影響は、トレードオフの関係にあります。
広いマイク間隔:例えば60cm以上に設定すると、左右のマイクロフォン間の時間差が増大し、よりワイドでドラマチックなステレオイメージが得られます。しかし、この広い間隔は、コムフィルターの最初のノッチ(谷)をより低い周波数帯、すなわち人間の聴覚が敏感な帯域へと移動させてしまいます。さらに、間隔が広すぎると、音場の中央に位置する音源からの音が左右のマイクにほぼ同じレベルで到達し、かつその位相関係が問題となるため、ステレオ再生時に中央の音が希薄になる「中抜け(center-hole)」現象を引き起こすことがあります。
狭いマイク間隔:例えばORTF方式の17cmやNOS方式の30cmのように間隔を狭めると、コムフィルターのノッチはより高い周波数帯へと追いやられ、知覚されにくくなります。しかし、その代償として時間差が減少し、ステレオイメージは狭く、空間的な広がり感に乏しいものとなります。
結論として、A-B方式における録音技術とは、求めるステレオイメージの広がりと、許容できる音色の変化との間で、最適なバランスを見つけ出す実践的技術であると言えます。
1.2 自然界のフィルター:頭部伝達関数(HRTF)
自然界においても、フィルタリングは空間認識の根源的な手がかりとして利用されています。この事実は、頭部伝達関数(Head-Related Transfer Function, HRTF)という概念によって科学的に裏付けられています。HRTFは、音波が鼓膜に到達するまでに、聴取者の頭部、胴体、そして特に複雑な形状を持つ耳介(じかい、外耳)と相互作用することによって生じる、複雑なフィルタリング効果を記述したものです。
HRTFの最も重要な機能は、音の到来方向に依存した特有のスペクトル上の特徴(周波数特性のピークとノッチ)を生み出すことにあります。このスペクトル情報こそが、人間が音の高さ(仰角)を判断し、前後方向の曖昧さ(例えば、音が正面から来ているのか、真後ろから来ているのか)を解消するための主要な手がかりとなるのです。標準的なヘッドフォンで音楽を聴くと、このHRTFによるフィルタリング効果が失われるため、音像が頭の中に定位してしまう「頭内定位」という現象が起こりますが、これはHRTFが自然な空間知覚にとっていかに重要であるかを示す好例です。
さらに重要なのは、HRTFが極めて個人的な特性であるという点です。頭部や耳介の形状、大きさは一人ひとり異なるため、HRTFもまた個人に固有のものとなります。私たちは、生涯を通じて自身のHRTFを無意識のうちに学習し、それを参照することで、自分を中心とした三次元音響空間を構築しているのです。
1.3 空間聴覚の基礎的手がかり:両耳間時間差(ITD)と両耳間レベル差(ILD)
水平方向の音源定位は、主に「両耳間手がかり(binaural cues)」として知られる二つの物理的な差によって決定されます。これはデュプレックス理論(Duplex Theory)として知られています。
両耳間時間差(Interaural Time Difference, ITD):約2000Hz以下の低周波数の音に対して、脳は左右の耳への音の到達時間差を利用します。例えば、右側からの音はまず右耳に到達し、わずかに遅れて左耳に届きます。人間の頭の大きさでは、この時間差は最大で約700マイクロ秒(µs)程度ですが、脳は驚くべきことに、最小で10マイクロ秒という微小な差を検出する能力を持ちます。この鋭敏な時間分解能が、水平面における正確な音源定位を可能にしています。
両耳間レベル差/強度差(Interaural Level/Intensity Difference, ILD/IID):約2000Hz以上の高周波数の音に対しては、頭部が音波に対する障害物となり、「音響的な影(acoustic shadow)」を生み出します。これにより、音源に近い側の耳では音が大きく、遠い側の耳では小さく聞こえます。脳はこのレベル(音圧)の差を検出し、音源の方向を判断します。
脳がこれらの手がかりを演算して最終的な聴覚イメージを形成するプロセスは、神経科学的にも支持されています。特にITDの処理に関しては、1948年に提唱されたジェフレスモデルが古典的かつ影響力のある神経回路モデルとして知られています。このモデルは、脳幹にある神経細胞群が、左右の耳から送られてくる信号の遅延時間に特異的に反応する「コインシデンス・ディテクター(一致検出器)」として機能し、それによって音響空間の神経的なマップを形成するという考え方です。さらに、脳はこれらの手がかりを柔軟に統合しており、時間差によって一方に偏った音像を、反対側の耳の音量を上げることで再び中央に戻すことができます。これは「時間と強さの交互作用(time-intensity trading)」として知られています。
ここで、第1部の議論を総括します。コムフィルタリングはA-B方式ステレオ録音における現実的なアーティファクトであり、HRTF、ITD、ILDは人間の空間聴覚の基本原理です。しかし、ここから導き出されるより深い洞察は、アーティファクトとしてのコムフィルターと、生物学的なプロセスとしてのHRTFとの対比にあります。コムフィルターの「不自然さ」は、フィルタリングそのものに起因するのではなく、その静的で非身体的な性質に起因します。それは、変化しない固定的なスペクトル特性を音に課します。対照的に、HRTFによる「自然な」フィルタリングが望ましいのは、それが動的で、身体化され、情報豊かであるからです。それは頭部のあらゆる微細な動きと共に変化し、私たちの運動系と生涯にわたる経験と分かちがたく結びついています。脳の聴覚系は静的な世界を期待していません。むしろ、自己の動きと相関して動的に変化する手がかりに満ちた世界を期待しています。コムフィルターというアーティファクトは、この期待に反します。それは動的な世界に課せられた静的なフィルターであり、知覚的な葛藤を生み出します。一方でHRTFは、この期待そのものです。それこそが、私たちの脳が空間情報として解釈することを学習したフィルターなのです。この洞察は、次のセクションで詳述する「能動的な聴き手」という概念への重要な架け橋となります。
表1:聴覚的音源定位における主要な手がかりの比較分析
手がかり | 物理的基盤 | 主要な周波数帯域 | 知覚的次元 |
ITD (両耳間時間差) | 両耳までの経路長差 | 低周波数帯 (<2 kHz) | 水平方向(方位角) |
ILD (両耳間レベル差) | 頭部による音響的な影 | 高周波数帯 (>2 kHz) | 水平方向(方位角) |
スペクトル手がかり (HRTF) | 耳介、頭部、胴体によるフィルタリング | 高周波数帯(複雑なノッチとピーク) | 仰角、前後判断 |

第2部:能動的な聴き手:静的なセンサーを超える
本セクションでは、静的な音響センサーと動的な人間の聴取者との間の本質的な差異、すなわち「能動的聴取」の概念について論じます。ここでは、「能動的聴取(Active Listening)」と、聴覚以外の感覚が果たす決定的な役割に関する豊富な科学的証拠を提示し、人間の空間聴覚が本質的に多感覚的かつ運動駆動的なプロセスであることを明らかにします。
2.1 運動する身体:能動的聴取と頭部運動
頭部や身体の動きは、単なる付随的な現象ではなく、聴覚情報を最適化し、知覚的な曖昧さを解消するための根源的な戦略です。
「能動的聴取」に関する数多くの研究が、聴取者に頭部を動かす自由を与えることで、音源定位の正確性が向上することを示しています。特に、前後方向の混同を解消したり、反響の多い複雑な音響環境下でのパフォーマンスを改善したりする上で、頭部運動は極めて有効です。
そのメカニズムは、頭部運動がITD、ILD、そしてHRTFの各手がかりに動的な変化を生み出すことにあります。脳は、この自己生成的な手がかりの変化を時間的に統合することで、より頑健で正確な音源位置のモデルを構築します。このプロセスは非常に根源的であるため、聴取者は特別な指示がなくとも、自発的に頭部を動かして聴覚環境を探索します。この能動的なプロセスは、単に音源を定位するためだけのものではありません。「カクテルパーティー効果」に代表されるように、雑音下での音声理解を向上させる上でも重要であり、頭部の向きを最適化することで、目的の信号と雑音の比率(SN比)を最大化することができます。この原理は、現在、先進的なバーチャルリアリティ(VR)や補聴器技術にも応用されており、ヘッドトラッキングを用いて、より現実的で正確な空間音響体験を提供しようとする試みがなされています。
2.2 感じられない感覚:前庭覚と固有感覚の統合
脳は、頭部運動によって生じる動的な聴覚手がかりを、真空の中で解釈しているわけではありません。脳は、その運動自体に関する情報を必要とします。この情報は、聴覚以外の二つの極めて重要な感覚システムによって提供されます。
前庭覚(平衡感覚):内耳に位置する前庭器官は、頭部の回転や直線的な加速度を検出します。この信号は、空間聴覚において絶対的に不可欠です。それは、脳に対して頭部が空間内でどのように動いているかを伝えます。前庭覚からの情報と、変化する聴覚手がかりとを統合することにより、脳は、動いている音源と動いている自分自身の頭とを区別することができます。これにより、絶えず変化する「頭部中心」の座標系ではなく、安定した「世界中心」の座標系における音響空間の表象を生成することが可能になります。前庭覚入力は非常に強力であり、音の動きに関する錯覚を誘発することさえあります。
固有感覚(自己受容感覚):固有感覚とは、筋肉や関節にある受容器から得られる、自己の身体各部の相対的な位置に関する感覚です。これは、身体に対する頭部の向きに関する情報を提供します。前庭覚が頭部の回転を知らせたとき、首の筋肉からの固有感覚は、それが頭部のみの回転なのか、身体全体の回転なのかを区別するのに役立ちます。この統合は、空間情報を正確に更新し続けるために不可欠です。研究によれば、固有感覚フィードバックは音源定位の訓練効果を著しく向上させ、音源の知覚位置に直接影響を与えることさえあります。
2.3 多感覚空間の神経アーキテクチャ
聴覚、前庭覚、固有感覚の情報を統合するこのプロセスは、比喩的な表現ではなく、特定の神経回路で物理的に行われています。
主要な脳領域:
上丘(Superior Colliculus, SC):中脳に位置するこの領域は、多感覚統合の主要なハブです。上丘のニューロンは、聴覚、視覚、体性感覚(前庭覚や固有感覚を含む)系からの入力を受け、音源の方向へ頭部を向けるといった、素早い定位反射運動を生成するために極めて重要です。
後部頭頂皮質(Posterior Parietal Cortex, PPC):感覚情報を運動指令に変換し、世界の空間的表象を維持することに関与する高次の皮質領域です。頭部中心、身体中心、世界中心といった異なる感覚の参照フレームを統合する上で中心的な役割を果たします。
小脳(Cerebellum):伝統的に運動制御と関連付けられてきましたが、小脳は感覚情報の処理や運動の感覚的結果を予測することにも深く関与しており、これはセンサーモーター適応にとって不可欠です。
これらの領域は、階層的なネットワークを形成しています。生の感覚データは一次感覚野で処理された後、上丘や後部頭頂皮質のような多感覚ハブで収束・統合され、その情報が運動野に伝えられて、さらなる探索的行動を導きます。
本セクションで提示された証拠は、運動が単に知覚を「改善する」という考えを超えて、自然な聴取にとって、運動が知覚プロセスの構成要素であることを示唆しています。私たちの聴覚系は、根本的に運動系との閉じたループ(クローズドループ)の中で機能するように設計されています。静的なマイクロフォンは、生物学的な観点からは本質的に情報が乏しい「開ループ(オープンループ)」システムを代表しています。
このことから、聴覚系への「入力」とは、単なる音波そのものではなく、自己の運動の関数として変化する音波のパターンであると再定義できます。これは、「聴く」という行為が何であるかを再定義します。それは受動的な受信ではなく、能動的な多感覚的探索なのです。
さらに、人間の身体は完全なシンメトリーではなく、非対称性に満ちています。HRTFは単純化のためにしばしば対称的なダミーヘッドでモデル化されますが、現実の人間の頭部のわずかな非対称性は、絶え間ない微細な動きと相まって、脳が処理するためのより豊かで、複雑で、非冗長な動的キューの流れを提供します。物理システムのこの「ノイズ」は、神経システムにとっては実は「シグナル」であり、知覚的な停滞を防ぎ、曖昧さを解消するためのより多くのデータを提供しているのです。
表2:能動的な空間聴覚のための多感覚ネットワーク
感覚システム | 提供される情報 | 空間聴覚への貢献 |
聴覚系 | ITD, ILD, HRTF(スペクトル手がかり) | 音源位置に関する主要な音響データを提供 |
前庭系 | 頭部の回転と加速度(角速度・線形速度) | 安定した世界中心の参照フレームを生成。自己運動と音源運動を区別 |
固有感覚系 | 身体に対する頭部の位置、四肢の位置 | 身体の姿勢を脳に通知。頭部運動を身体全体の状況と統合 |
運動系 | 遠心性コピー(運動指令の写し) | 意図された運動の予測信号を提供し、脳が感覚変化を予期することを可能にする |
第3部:身体化された参照系:聴覚的現実の構築
本最終セクションでは、これまでの議論を統合するための、発達心理学的および哲学的な枠組みを提供します。自己の参照系が乳児期からどのように構築されるかを説明し、その議論全体を認知科学の理論であるエナクティビズムの中に形式化します。
3.1 自己の起源:乳児の身体スキーマとセンサーモーター学習
人間の自己認識は、生得的に完成されているわけではありません。発達心理学によれば、乳児は、能動的な探索を通じて、「身体スキーマ(body schema)」――自己の身体の姿勢や能力に関する動的なセンサーモーター表象――を構築していきます。このプロセスは、自発的な「運動の喃語(motor babbling)」や自己への接触(セルフタッチ)から始まります。
自己と世界の境界は、随伴的な経験――「このように手を動かすと、このような感触があり、このような動きが見える」――を通じて学習されます。乳児は、自己の行為がもたらす結果を発見することによって、自己の身体と外部世界とを区別することを学びます。このプロセスこそが、身体化された自己参照系の確立の基盤です。知覚と運動の発達は、生後間もない頃から分かちがたく結びついています。運動能力の向上は新たな探索を可能にし、それが今度は知覚の発達を駆動します。乳児は、世界を、それがどのような行為をアフォードするか(可能にするか)という観点から知覚することを学ぶのです(例:ボールは掴むことをアフォードする)。
3.2 行為の哲学:知覚のエナクティブ・フレームワーク
「音は『そこにある』のではない。経験と身体によって『そこにあるように聴こえる』のだ」という結論は、エナクティビズム(enactivism)の核心的教義を驚くほど簡潔に表現しています。この認知科学の理論的枠組みは、認知とは、あらかじめ存在する外部世界の内的表象を作ることではなく、有機体と環境との間の動的で身体化された相互作用を通じて世界をエナクト(enact, 生成)することであると主張します。
エナクティブな観点から見ると、知覚とは私たちに「起こる」ものではなく、私たちが「行う」ものです。それは熟練した行為の一形態なのです。したがって、聴取とは、単に音波を処理することではなく、「能動的聴取(enactive listening)」という行為です。そこでは、私たちは環境との能動的で多感覚的な関与を通じて、聴覚的な意味を生成します。
エナクティビズムは、精神を、感覚入力を受け取り、それを処理し、運動出力を生成するコンピュータとして捉える古典的な認知主義モデルに異議を唱えます。その代わりに、知覚と行為を、動的なループの中で共起的に出現する、根本的に不可分なものとして捉えます。この考え方は、受動的なマイクロフォン(入力装置)と能動的な人間(エナクティブ・エージェント)との間の区別という、本稿の核心的な対比を完璧に捉えています。
3.3 知覚することを学ぶ:センサーモーター随伴性の習得
もし知覚がスキルであるならば、それはどのように学習されるのでしょうか。エナクティビズムのセンサーモーター理論は、私たちは「センサーモーター随伴性(Sensorimotor Contingencies, SMCs)」――自己の運動と、その結果として生じる感覚刺激の変化との間の法則的な関係性――を習得することによって知覚することを学ぶ、と提案しています。
例えば、私たちが「赤色」が何であるかを学ぶのは、脳内に「赤さ」ニューロンが存在するからではありません。私たちは、赤い物体を様々な照明条件に出し入れしたり、回転させたり、視線をその上を走らせたりする際に、感覚入力がどのように変化するかのパターンを習得することによって学ぶのです。同様に、私たちは、頭を回転させるにつれてITD、ILD、HRTFの手がかりがどのように変化するかのパターンを習得することによって、音の場所を知覚することを学びます。
時間経過とともに成長する動的な「参照リファレンス」や「地図のようなもの」とは、まさにこの、SMCsの習熟度を生涯にわたって学習し、洗練させていくプロセスそのものです。この身体化されたノウハウこそが、全ての新しい感覚情報が解釈される際の参照基準となるのです。
新しい随伴性を学習するプロセスは、ピアジェの平衡化理論を用いて形式的に記述することができます。私たちが新しい状況(「摂動」)に遭遇すると、既存のセンサーモーター・スキーマ(枠組み)は機能しなくなります。しかし、「調節」(自己のスキルを調整する)と「同化」(新しい経験を統合する)のプロセスを通じて、私たちはより洗練された新しい「平衡」状態に到達します。これこそが、知覚学習の微視的発生プロセスです。
このエナクティブな知覚モデルの神経科学的な基盤として、予測符号化(Predictive Coding)や自由エネルギー原理(Free Energy Principle)といった理論が注目されています。この理論によれば、脳は本質的に予測機械です。脳は、世界に関する内的モデル(「参照リファレンス」)に基づいて、次に来る感覚入力を絶えずトップダウンで予測しています。そして、知覚とは、「予測誤差」(予測と実際の感覚入力との差)を最小化するプロセスであるとされます。この最小化は二つの方法で達成されます。一つは、内的モデルを更新すること(知覚学習)。もう一つは、感覚入力が予測と一致するように世界に対して行為すること(能動的推論)。この枠組みは、エナクティビズムが記述する、動的で行為指向的な知覚のあり方に対して、神経生物学的に妥当性の高いメカニズムを提供します。
結論:聴覚空間の共創
本稿は、音響工学におけるコムフィルターという技術的なアーティファクトの分析から始まり、人間の聴覚の心理音響学的メカニズム、能動的な聴き手における多感覚統合、そして最終的には知覚が生成される発達的・哲学的基盤へと至る、知の探求の軌跡を辿ってきました。
分析の結果、静的なマイクロフォンと動的な人間との間の区別は、知覚そのものの本質を理解するための鍵であることが明らかになりました。マイクロフォンは信号を記録します。対照的に、人間は世界をエナクト(生成)するのです。
最終的に、私たちは、聴覚空間があらかじめ存在する客観的な現実であり、私たちがそれを受動的に検出するのではない、という結論に至ります。それは、私たちが自己の行為を通じて、環境と相互作用する中で共創する世界です。本稿の分析が到達した最も正確な要約は、次の言葉に集約されます。
「音は『そこにある』のではない。経験と身体によって『そこにあるように聴こえる』のです。人間は空間を『聴いて』いるのです。」
コメント