人によって聞こえ方が異なる音声「撮ったのかよ」

昔、探偵ナイトスクープで話題になっていたガラケーのシャッター音を、ヒートマップで見える化してみました。

毎年、正月番組「芸能人格付けチェック」を見ています。 2026年のオーケストラの聞き分けは、「102億4千万円の世界的名器と総額1000万円の楽器による弦楽八重奏」でした。正直自分には全く区別がつかなかったので、そもそもテレビのスピーカーから流れる音に違いがあるのかどうか、音声スペクトラムで可視化してみることにしました。

「撮ったのかよ」と「えーあいあい」
遅くすると「えーあいあい」？　低音だと「えーあいあい」？
「TOTTANOKAYO」と「EーAIAI」
音を見える化してみる
あくまでも仮説　周波数を低い方にずらすと母音が似ている？
まとめ

「撮ったのかよ」と「えーあいあい」

「撮ったのかよ！」と突っ込みを入れる音声なのに、人によって「エーアイアイ」と聞こえるのが話題でした。

年齢にも無関係、さらには一人でどちらにも聞こえたりします。つまりモスキート音のような特定の周波数が聞こえる（聞こえない）という要因でもなさそう。とても不思議です。
Youtubeにアップされている動画を貼っておきます。どちらに聞こえますか？

私は、普通に聞くと「撮ったのかよ」と聞こえ、雑音の中や小さい音で聞くと「えーあいあい」と聞こえます。

遅くすると「えーあいあい」？　低音だと「えーあいあい」？

検索してみると、音声が見つかると同時に色々な考察も見つかります。
私には、速度を変えているものが興味深いと思いました。私の場合、0.5倍速再生くらいから完全に「えーあいあい」に聞こえるからです。

低速で再生するということは、周波数（1秒間あたりの振動数）が減り、低音に聞こえるようになります。速度が関係するのか音程が関係するのか、はたまたどちらも関係するのか。

「TOTTANOKAYO」と「EーAIAI」

携帯電話のスピーカーは高音域や子音の細かい成分を再現しにくく、「T」「K」などの破裂音（子音）がノイズに埋もれやすいようです。その結果、母音成分がのこります。

聞き違いはたいてい似た母音で起こります。
ちょっと脱線になりますが、小さい子供が「エレベーター」「エベレーター」と言い間違えたり、「テレビ」「テベリ」などと言い間違う時でも、子音は入れ替わっていますが母音は合っています。

この「撮ったのかよ」と「えーあいあい」は
TO TTA NO KA YO
E – A I A I
A以外は全く違う母音に変わっています。同じ音で異なる母音に聞こえる要素なんてあるんでしょうか。