バイノーラルパンニングの概要

オーディオ信号をミキシングする際の重要な部分は、各音源を異なる空間位置に配置することです。録音とミキシングによく使われるテクニックは、異なる音量レベルのある信号を複数のスピーカー（ステレオの場合は 2 台、4 チャンネルまたはサラウンドのオーディオセット場合はそれ以上）に送信して、仮想的なサウンドステージを作ることです。

ただし、この方法には多少の問題があります。人間は、2 つの耳だけで異なる音源の位置を特定できるからです。実質的にすべての音の空間情報を 2 つの信号に押し込めて、2 つの耳の鼓膜に伝えています。この 2 つの信号から、人間は両耳に届く音響信号の時間差や音量レベルなどの性質や、聴こえる音の空間内の位置情報を（聴覚経験に基づいて）判断することができます。音が前後左右のどちらから来るのか、上下のどちらから来るのかを聞き分けることができます。音の発生位置を聞き分ける能力はバイノーラル聴覚と呼ばれます。

理論的には、音響経験の空間位置は、再生時に再現することができるため、録音時には音響空間を操作するテクニックは必要ありません。ただし、この方法には 1 つの欠点があります。人によって、耳の形や、体と頭のプロポーションは異なり、それらの違いはすべて、信号がどのように鼓膜に届くかに影響します。もちろん、聴力損失や、その音を聴いた主観的効果などの影響もあります。こうした物理的な差があるため、同じ位置で立ったり座ったりして同じ音源を聴いても、人によってバイノーラル信号の聴こえかたが違います。

したがって、音響空間を完全に再現するとしたら、極小のマイクロフォンを耳管に入れて録音するしかありません。これは実際的ではないため、音響実験室では、マイクロフォンを埋め込んだマネキンの頭部を使ってバイノーラル聴覚をエミュレートしています。この方法から、ほとんどの人の聴覚にほぼ対応できる「平均的」な人間のバイノーラル録音が開発されました。

バイノーラル録音の再生は、信号を正確に再現できる信号条件（処理）を組み合わせれば、ヘッドフォンによる再生が最適です。専用のリスニング環境があれば、クロストークキャンセレーション（CTC）という処理を行って、これらの信号をスピーカーで再現することも可能です。

バイノーラル録音に必要な機材がない場合は、再生時に音の信号を処理することで、バイノーラル信号をシミュレーションすることができます。これには HRTF（Head-Related Transfer Function：頭部音響伝達関数）と呼ばれる、音源位置から鼓膜までの音響伝達特性を概算する関数が使われます。