AI音声、人は騙されるが”脳”は「違い」を見抜いていた

2026.3.16

AIを使った合成音声はますます巧妙になっています。

人間の声と見分けることは難しく、家族や上司を装った詐欺電話や、ディープフェイク音声として悪用される事例も増えています。

では、人間は本当にAIの声を見抜けないのでしょうか。

中国の天津大学（Tianjin University）の研究チームは、人がAI音声と人間の声を区別できるのかを、行動実験と脳波測定の両方で調べました。

その結果、人の判断力はあまり向上しなかった一方で、脳波の一部の解析では、訓練後に人間の声とAI音声への反応の違いが表れていました。

この研究は2026年3月9日、『eNeuro』に掲載されました。

AI音声は見抜けるのか？自覚がなくても「脳」は分かっている
脳は「AIと人の違い」を拾い始めていた

AI音声は見抜けるのか？自覚がなくても「脳」は分かっている

近年のAI音声合成は、以前のような機械的な声とは大きく異なります。

現在の技術では、声の高さや抑揚、話すリズム、息づかいに近い要素までかなり自然に再現できます。

そのため便利な技術である一方で、電話詐欺やなりすましに使われる危険も高まっています。

そこで研究者たちは、「人間はAI音声と人間の声を本当に区別できるのか」を確かめようとしました。

実験には30人が参加しました。

参加者は、人間の声とAIが生成した音声を聞き、「これは人間か、AIか」を判断します。

AI音声の作成には「GPT-SoVITS」という音声合成モデルが使われ、追加学習によって特定の人の声により近づけたものと、追加学習をしていないものの2種類が用意されました。

実験は三つの段階で行われました。

まず参加者は、何のヒントもない状態で音声を聞き、人間かAIかを答えます。

その後、約12分間の訓練が行われました。この訓練では、「赤ずきん」などの童話要約を使い、聞こえてくる音声が「人間」か「AI」かを表示しながら聞かせました。

つまり、答えを示しながら違いを学ぶ時間です。

最後に、再び判別テストが行われ、判別テストでは、短い文章を使って人間の声かAI音声かを答えさせています。

さらに参加者は、実験中ずっとEEG（脳波測定装置）を装着していました。

研究チームは、参加者が正しく判断できるかだけでなく、音声を聞いたとき脳がどう反応するかも同時に調べたのです。

その結果は少し意外なものでした。

参加者はAI音声と人間の声をあまりうまく見分けられず、12分の訓練の後も、判別の正確さは大きくは上がりませんでした。

しかし興味深いのは、脳波解析では、訓練後に人間の声とAI音声への反応の違いが見られたことです。

より詳しい結果を次項で確認しましょう。

脳は「AIと人の違い」を拾い始めていた

脳波データを詳しく分析したところ、研究チームは興味深い変化を見つけました。

訓練の後、脳波解析では、人間の声とAI音声に対する脳の反応に差が表れていたのです。

その違いが見られたのは、音が始まってから約55ミリ秒、210ミリ秒、455ミリ秒のタイミングでした。

55ミリ秒というのは、人が意識して「これはAIだ」と判断するよりもかなり早い段階です。

少なくとも今回の解析では、私たちが意識して答えを出すより前に、脳の聴覚系が音の違いに反応している可能性が示されたことになります。

ただし、ここで大事なのは、脳波なら何を見ても差が出たわけではないという点です。

違いが見られたのは主にTRF解析（音声の変化と脳の反応の時間的な対応を見る脳波解析）で、他の脳波解析では、はっきりした差は確認されませんでした。

つまり「脳全体が完全に見抜いていた」というより、「脳の一部の反応には違いが現れ始めていた」と捉えるほうが正確です。

では、AI音声と人間の声の違いはどこにあるのでしょうか。

研究チームが音声そのものを分析したところ、両者の違いは「5.4〜11.7ヘルツ」という帯域に表れました。

これは、音節の立ち上がりや、子音から母音へ移るときのような、ごく短い時間の変化に関わる部分です。

人間の声は、声帯や口の形の動きによって複雑な揺らぎが生まれます。

AI音声も文全体としてはかなり自然ですが、今回の研究では、こうした瞬間的な細かな変化に人間の声との違いが残っている可能性が示されました。

それでも私たちがその違いを自覚しにくいのは、単にまだ聞き慣れていないからかもしれません。

研究者はこれをわかりやすい例えで説明しています。

たとえばパンダです。

飼育員は個体ごとの違いを見分けられますが、一般の人にはどのパンダも似て見えることがあります。

これはパンダに違いがないのではなく、一般の人は、まだどこを見ればいいかを知らないのです。

ワインも同じです。

初心者にはどれも似た味に感じられても、慣れた人には香りや味の違いがはっきりわかります。

AI音声も同じで、私たちの耳はまだ「どの違いに注目すればよいか」を十分に学んでいないのでしょう。

研究チームがこの結果を前向きに見ているのは、わずか12分の訓練でも脳の反応が変わったからです。

人の判断はすぐには変わらなくても、脳の側では違いを拾う準備が始まっているのかもしれません。

今後は、もっと長い訓練を行ったときに本当に判別能力が上がるのか、あるいはもっと長い会話や自然な通話の中でも同じことが起こるのかを調べる必要があります。

また、AI音声と人間の声を分ける決め手となる音響特徴が何なのかを、さらに詳しく突き止める研究も重要になりそうです。

参考文献

Your Brain Knows It’s a Deepfake, Even When You Don’t
https://www.zmescience.com/future/your-brain-knows-its-a-deepfake-even-when-you-dont/

Can people distinguish between AI-generated and human speech?
https://www.eurekalert.org/news-releases/1118422

元論文

Short-Term Perceptual Training Modulates Neural Responses to Deepfake Speech but Does Not Improve Behavioral Discrimination
https://doi.org/10.1523/ENEURO.0300-25.2026

ライター

矢黒尚人: ロボットやドローンといった未来技術に強い関心あり。材料工学の観点から新しい可能性を探ることが好きです。趣味は筋トレで、日々のトレーニングを通じて心身のバランスを整えています。

編集者

ナゾロジー編集部

元記事で読む

ナゾロジー

の記事をもっとみる