カクテルパーティ効果の再現

先日、四国にツーリングしていたのだが、例えば食い物屋とかで、地元の人たちが歓談しているところに、関東系の旅行者が入ってきて語りだすと、彼らの言葉が地元の言葉から、クッと浮かび上がってくる。
地元のおばちゃんたちがバリバリの地元言葉で早口で語りだすと、関東人の僕には、語られている言葉が、意味として形を成さず、音塊として耳を通り抜けていってしまうのだ。そこへ聴きなれた関東系の言葉が聞こえてくると、対照的にずいぶんと鮮明に浮かび上がってくる。

いわゆるカクテルパーティ効果というのは、自分の聞きたい対象の言葉を、選択的に聞き分けられるという現象であるわけなんだが、いまサクっと検索した分には、同じ音量エネルギーの中で、被験者のネイティブでない言語とネイティブである言語とで、比較対照実験していたりするのが見当たらないようだ。
言葉の「意味」の奔流の中からでも、聴きたい対象の言葉を選択的に聞き分けるというのと、「意味」をほとんどもたない言葉の中でも、聴きたい対象の言葉を選択的に聞き分けるというのは、本質的に異なっているように思えるのだけど。

そしていま検索してみたところ、カクテルパーティ効果は録音されたものからは起こらない、みたいに書かれているところがいくつかあったのだが
http://www.toa.co.jp/otokukan/otomame/1-1.htm
http://gc.sfc.keio.ac.jp/class/2005_14454/slides/12/84.html
ちょっと待ってくれよ! それ本当に、生で聴いているときの音場を再現した上で、そのような結論を導き出してます?
最低でも4ch(前左右、後左右)で録音したものを、4chで再生して実験して欲しいのだけど。それらしきことを書いてあるところがヒットしなかった。

以下、かなり単純にモデル化しているのであまりツッコまんとくださいませ。
人間の耳は前後方向も認識するけれど、通常の2chレコーダーでは前後という概念が無い。なので2chレコーダーで録音したものを2chで再生すれば、後方の音響エネルギーも前方にミキシングされて出力されることになる。
例えば音場全体の音響エネルギーが100で、選択的に聴きたい対象の音響エネルギーが5だとする。
4ch収録再生ならば、4つのスピーカーに、25ずつエネルギーが分配されて発音されるので、対象が真正面にいるならば、音響エネルギーの中から5/50で聞き分ければよい。
2ch収録再生ならば、2つのスピーカーに(中略)の音響エネルギーの中から5/100で聞き分ける必要が生じる。そりゃカクテルパーティ効果の再現は難しくなるよね。