1. トップ
  2. 恋愛
  3. 【音だけで居場所がバレる】「環境音から風景を予測するAI」の精度がヤバい

【音だけで居場所がバレる】「環境音から風景を予測するAI」の精度がヤバい

  • 2024.12.16
環境音からその風景を予測するAIが登場 / Credit:Yuhao Kang(UT Austin)_Researchers Use AI To Turn Sound Recordings Into Accurate Street Images(2024)

刑事ドラマでは、犯人の電話音声でどこにいるのか特定するなんてシーンがありますが、現実では都合よく周囲の状況がわかる音が聞こえることはほとんどないでしょう。

しかし、アメリカのテキサス大学オースティン校(UT Austin)に所属するユハオ・カン氏ら研究チームは、環境音からかなり正確な周辺の風景を予測するAIを開発しました。

実際、環境音だけを手がかりに生成された画像を見ると、周囲の建物の配置から遠くのビルに至るまで、オリジナルの風景と酷似しています。

これからは音だけで捜査が行えるような時代も来るかもしれません。

研究の詳細は、2024年5月1日付の学術誌『Computers, Environment and Urban Systems』に掲載されました。

目次

  • 人間には「環境音から風景を思い浮かべる」能力がある
  • 環境音から正確に元の風景を予測するAIが登場
  • AIは人間の能力を理解するのに役立つか?悪用の危険性も

人間には「環境音から風景を思い浮かべる」能力がある

私たち人間には、環境音から風景を思い浮かべる能力があります。

誰かと電話している時、相手の声の後ろから聞こえる環境音だけで、相手がどこにいるのかを瞬時に想像することができるのです。

人間には電話音声から相手がいる場所を瞬時に思い描く能力がある / Credit:Canva,ナゾロジー編集

例えば、病欠した部下に電話をかけると、後ろから聞こえてくる人混みの音や楽しいメロディから、彼が仮病で遊園地に来ていることを察してしまう、なんてことがあるかもしれません。

上司の頭の中には、部下が訪れている場所の風景が瞬時に思い描かれることでしょう。

刑事ドラマでも、犯人の電話から汽笛が聞こえて港の倉庫にいると特定されるなんて場面が描かれることもあります。

こうした音からその周辺の環境を推測する能力を科学技術によって補強できれば、現実の犯罪捜査などの場面でも活躍できるかもしれません。

今回、ユハオ・カン氏ら研究チームは、AIを使ってこれを実現しようとしました。

なんと彼らは、環境音からかなり正確にその風景を予測するAIを開発したのです。

人間の脳波を元に、人間が思い浮かべている風景を画像生成するAIなども既に存在していますが、この新しく開発されたAIは、周囲の環境音を元にその音が録音された風景を予測し、画像生成することができるのです。

環境音から正確に元の風景を予測するAIが登場

「環境音から元の風景を予測するAI」を生み出すため、研究チームは最初、北米、アジア、ヨーロッパの都市のYouTube動画とその環境音を収集しました。

そして風景の静止画像とそれに対応する10秒間の環境音クリップを作成しました。

次に、これら様々な場所の「画像と環境音クリップのペア」を用いてAIをトレーニングし、環境音だけで、オリジナルの風景を正確に予測できるようにしました。

そして、このAIの性能をテストするため、録音された100個の環境音から、その風景を予測するようAIに指示し、オリジナル画像と比較しました。

環境音から生成された画像は、オリジナルの風景とかなり似ている / Credit:Yuhao Kang(UT Austin)_Researchers Use AI To Turn Sound Recordings Into Accurate Street Images(2024)

その結果、AIが生成した画像とオリジナルの風景では、空、緑、建物の割合が相関関係にあると分かりました。

実際、2つの画像を比較すると、近くに存在する建物だけでなく遠くのビル、自動車の交通量、川や海の存在、通路などの要素がかなり似ていました。

さらに生成された画像は、晴れ/曇り、昼/夜などの照明条件も反映しており、これはAIが、夜間における交通量の減少や夜行性の昆虫の鳴声などを参考にした可能性を示しています。

今回の実験では、AIがかなり正確に元の風景を予測できると分かりました。

これを利用するなら、「犯人の電話音声から居場所を特定する」なんてことも簡単に行えるようになるかもしれません。

AIは人間の能力を理解するのに役立つか?悪用の危険性も

最後の実験では、人間の審査団がオリジナルの環境音を聞き、「それを元にAIが生成した画像」と「無関係の風景を撮影した画像2枚」の中から、環境音と対応している画像を選ぶよう指示されました。

その結果、審査団は、80%の確率でAIが生成した画像を選択しました。

この結果は、環境音を聞いた時の人間の予測とAIの予測が似ていることを示しています。

研究チームも、「音から情景を思い描く能力は人間特有のものですが、この実験結果は、AIが人間の感覚能力に近づく可能性を示している」と述べています。

このAIは、単に事件の捜査などに使用できるだけではありません。

AIの予測能力は、私たち人間が持つ「環境音から風景を予測する能力」に近く、AIの研究を続けることで、人間特有の能力を理解するのに役立つ可能性があるのです。

今後研究チームは、人間特有の能力をもっと深く理解したり、AIでより正確に再現したりしたいと考えています。

僅かな情報から住所を特定してしまうネットの「特定班」 / Credit:Canva

しかし、懸念点もあります。

この壮大な目的が果たされる前に、悪用される恐れがあります。

ネット上には限られた情報だけで住所を特定してしまう恐ろしい人々(いわゆる「特定班」)が潜んでいます。

例えば過去には、あるYouTuberの動画に鳥の鳴声が含まれており、特定の地域にしか生息しない鳥だったことから、住所特定に繋がったケースがありました。

もし、そうした特定班がこのAIを悪用したら、住所特定は一層簡単になることでしょう。

将来、「SNSにアップされた動画のちょっとした環境音から住所を特定する」なんてことも可能になるかもしれないのです。

参考文献

Researchers Use AI To Turn Sound Recordings Into Accurate Street Images
https://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/

AI generates accurate images of streets by listening to their soundtrack
https://newatlas.com/ai-humanoids/ai-street-images-sound/

元論文

From hearing to seeing: Linking auditory and visual place perceptions with soundscape-to-image generative artificial intelligence
https://doi.org/10.1016/j.compenvurbsys.2024.102122

ライター

大倉康弘: 得意なジャンルはテクノロジー系。機械構造・生物構造・社会構造など構造を把握するのが好き。科学的で不思議なおもちゃにも目がない。趣味は読書で、読み始めたら朝になってるタイプ。

編集者

ナゾロジー 編集部

元記事で読む
の記事をもっとみる