昔、探偵ナイトスクープで話題になっていたガラケーのシャッター音の話です。
「撮ったのかよ」と「えーあいあい」
「撮ったのかよ!」と突っ込みを入れる音声なのに、人によって「エーアイアイ」と聞こえるのが話題でした。
年齢にも無関係、さらには一人でどちらにも聞こえたりします。つまりモスキート音のような特定の周波数が聞こえる(聞こえない)という要因でもなさそう。とても不思議です。
ちなみに私は、普通に聞くと「撮ったのかよ」と聞こえ、雑音の中や小さい音で聞くと「えーあいあい」と聞こえます。
今回、ヒートマップを使ってこの音声を見える化してみます。
コピーして貼るのも良くないと思うので、音声は皆さんで探してください。「撮ったのかよ」と「えーあいあい(エーアイアイ)」あたりで検索するとすぐに見つかります。
遅くすると「えーあいあい」? 低音だと「えーあいあい」?
検索してみると、音声が見つかると、その人達の色々な考察も見つかります。
私には、速度を変えているものが興味深いと思いました。私の場合、0.5倍速再生くらいから完全に「えーあいあい」に聞こえるからです。
低速で再生するということは、周波数(1秒間あたりの振動数)が減り、低音に聞こえるようになります。速度が関係するのか音程が関係するのか、はたまたどちらも関係するのか。
「TOTTANOKAYO」と「EーAIAI」
聞き違いはたいてい似た母音で起こると思います。
ちょっと脱線になりますが、小さい子供が「エレベーター」「エベレーター」と言い間違えたり、「テレビ」「テベリ」などと言い間違う時でも、子音は入れ替わっていますが母音は合っています。
この「撮ったのかよ」と「えーあいあい」は
TO TTA NO KA YO
E – A I A I
A以外は全く違う母音に変わっています。同じ音で異なる母音に聞こえる要素なんてあるんでしょうか。
音を見える化してみる
Pythonで音声をフーリエ解析し、その結果を音声スペクトラムという形に見える化してみました。
音声合成ソフトに「えーあいあぁい」「お、あおあお」と言わせて
それも音声スペクトラムにしてみました。
あくまでも仮説 周波数を低い方にずらすと母音が似ている?
私の場合、「撮ったのかよ」の再生速度を落としたとき「えーあいあい」と聞こえるようになりました。
再生速度を落とした=1秒当たりの振動数が落ちる=音声が低くなる
という点からの仮説です。
「撮ったのかよ」の母音である「お、あおあお」が下図の右のように低くズレたとき
なんだか「えーあいあい」と似ているように見えなくもない、かなと思いました。
とはいえ知人に試してもらったところ、速度を落としても「えーあいあい」には聞こえない人もいたので実証ができた訳ではなく、あくまでも仮説ですが。
まとめ
「撮ったのかよ」の中に「えーあいあい」「お、あおあお」の類似点が見えるかと思ったのですが、まだそういう裏付けは見つかりませんでした。
仮説としては、再生速度を落とした(=音声を低音側にずらした)ところ、音声の周波数の特徴が母音のレベルでは似てるようにも見えました。
まだ特徴の分析の余地がありそうですが、今回はPythonを使って音声ファイルを音声スペクトラムで見える化し、仮説まででした。
コメント