対話中に自然な反応速度で笑顔をつくれるロボット「エモ」

2024.4.1

笑顔を事前に察知し、同時に微笑むロボット「エモ」 / Credit:Courtesy of Creative Machines Lab_Robot, can you say ‘Cheese’?（2024）

人と人との円滑なコミュニケーションに、「表情」という要素は欠かせません。

しかも、人は瞬間的な表情の違いに敏感です。

ビデオ通話における映像の僅かな遅延によって「コミュニケーションしにくい」と感じることがあるのはそのためです。

だからこそ、人型ロボットを人間に近づけるためには、ロボットに「相手に合わせた瞬時の表情の変化」を持たせる必要があります。

アメリカのコロンビア大学（Columbia University）機械工学部に所属するユハン・フー氏ら研究チームは、その課題に取り組んでおり、人間の笑顔を事前に察知して、同じように笑顔を作るロボット「エモ（Emo）」を開発しました。

エモはこの機能によって、人間とほぼ同時に微笑むことができ、人間とロボットが信頼関係を構築するのに役立つと考えられています。

研究の詳細は、2024年3月27日付の科学誌『Science Robotics』に掲載されました。

非言語コミュニケーションである表情を改良し、「不気味の谷」を越えられるか
笑顔の兆候を察知し、相手と同時に笑顔を作るロボット「エモ」

非言語コミュニケーションである表情を改良し、「不気味の谷」を越えられるか

人間に限りなく近いロボットを開発することは、科学者たちが目指す夢の1つです。

コミュニケーションの分野においては、最近、ChatGPT のような大規模言語モデルによって目覚ましい進歩を遂げています。

それらが導入されたロボットに話しかけるなら、まるで人間のようにバリエーション豊かな返答が得られるのです。

しかし、そのコミュニケーションは言語に限ります。

言語を用いないコミュニケーション、特に「表情」の分野では、ロボットたちはまだまだ人間から遠く離れているのです。

もちろん、表情豊かなロボットはこれまでにも開発されてきました。

それらのロボットたちは、歯を見せて笑ったり、眉間にしわを寄せて怒ったりするなど、人間にかなり近い表情を見せてくれます。

それでも、「不気味の谷」を越えることはできていません。

不気味の谷現象とは、ロボットの外見や動きが高いレベルで人間に類似する時に、人々が抱く「恐怖感」「嫌悪感」「薄気味悪さ」のことです。

通常、人々は人間のような性質を持ったロボットに好感を抱くものです。

そして外見や動作がどんどん人間に近づくにつれて、その好感度も高まっていきます。

しかし、ある段階で、その好感度は急激に下がります。

不気味の谷現象を示すグラフ / Credit:Wikipedia Commons_不気味の谷現象

ロボットが非常に高いレベルで人間に類似すると、人々は好感を抱くどころか、強い違和感や嫌悪感を抱くようになるのです。

それでも、私たちが本物の人間の表情や動作に「温かみ」や「愛情」「親近感」を感じるように、人間に極限まで近づいたロボットに対しては再び好感を抱くようになると考えらえます。

現在、人型ロボットの外見や動作は、この「不気味の谷現象」が生じるところまで人間に近づいていますが、これを越えることはできておらず、科学者たちの課題だと言えます。

これは人間に近いロボットを作ろうとした場合の有名な問題ですが、ロボットが表情を使ったコミュニケーションをする際には、もう一つ技術者にとって大きな課題が存在します。

それが相手の表情に合わせて、自分も表情を作る際の反応速度の問題です。この反応速度が僅かでも遅いと、人間はコミュニケーションの取りづらさを感じたり、相手を不気味に感じてしまうのです。

今回、ユハン・フー氏ら研究チームの開発したロボットは、「ロボットの反応を人間レベルにまで近づけるもの」であり、もしかしたらこの課題のクリアに役立つ可能性があるのです。

笑顔の兆候を察知し、相手と同時に笑顔を作るロボット「エモ」

研究チームによると、表情でコミュニケーションを行えるロボットの設計には、2つの課題があるようです。

1つは、「表情豊かな顔を機械的に設計すること」であり、もう1つは「自然で本物らしく見えるよう、適切なタイミングで、どのような表情を生成するか教えること」です。

研究チームが開発した頭部のみの人型ロボット「エモ」は、これらの2つの課題に取り組んでいます。

非言語コミュニケーションに挑んだ「エモ」 / Credit:Courtesy of Creative Machines Lab_Robot, can you say ‘Cheese’?（2024）

エモには26個のアクチュエーターが装備されており、様々な表情を作り出すことができます。

人間のように表情の微妙な違いも再現できるのです。

またエモの両目には、高解像度カメラが取り付けられており、非言語コミュニケーションに必要なアイコンタクトを取ることもできます。

そしてチームは、まずエモに表情の作り方を学習させるため、エモをカメラの前に置き、ランダムな動きをさせました。

これを数時間続けることで、エモは、どの運動コマンドの組み合わせが、どんな表情を生み出すかを学習することができました。

このプロセスは、研究チームが「セルフモデリング（self modeling）」と呼んでいるものであり、人が鏡の前で笑顔の作り方を練習することに似ています。

次にチームは、エモに人間の表情に関する動画を見せ、フレームごとに分析させました。

このトレーニングが数時間行われると、エモは人の顔の僅かな動きを察知し、それがどんな表情に繋がるか予測できるようになりました。

笑顔を事前に察知し、同時に微笑むことが可能 / Credit:Yuhang Hu（Columbia University）et al., Science Robotics（2024）

実際にエモは、対面した人間の笑顔を約840ミリ秒前に予測し、相手の笑顔と同時に自分も笑顔で応答できました。

「相手の表情を予測して、自分の表情も瞬時に変化させる」能力は、人間に限りなく近いコミュニケーション能力だと言えるでしょう。

では、この顔の動作によって、エモは「不気味の谷」を越えることができたのでしょうか。

私たちがエモを見て感じているように、それはまだ難しいようです。

私たちと同時にエモが笑顔になると、「エモに親しみを感じる」というよりも、怖くなってしまいますね。

とはいえ、ユハン・フー氏が、「人間の表情を正確に予測することは、人とロボットの関わり合いにおける革命です」と述べるように、この成果は、人型ロボットとの表情を介した対話における課題の一つである反応性の問題をクリアするのに役立つはずです。

ロボットの動作や外見、反応の自然さを一歩ずつ人間に近づけていくなら、いずれ人々から好感を持たれる「限りなく人間に近いロボット」を作ることができるはずです。

研究チームは、次のステップとして、このエモにChatGPT のような言語モデルを組み込んで、表情と言語を組み合わせたコミュニケーションを作り出す予定です。

参考文献

Robot, can you say ‘Cheese’?
https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

Emo senses your smile before it happens and responds in kind
https://newatlas.com/robotics/emo-robot-senses-responds-to-human-smile/

元論文

Human-robot facial coexpression
https://doi.org/10.1126/scirobotics.adi4724

ライター

大倉康弘: 得意なジャンルはテクノロジー系。機械構造・生物構造・社会構造など構造を把握するのが好き。科学的で不思議なおもちゃにも目がない。趣味は読書で、読み始めたら朝になってるタイプ。

編集者

海沼賢: ナゾロジーのディレクションを担当。大学では電気電子工学、大学院では知識科学を専攻。科学進歩と共に分断されがちな分野間交流の場、一般の人々が科学知識とふれあう場の創出を目指しています。

元記事で読む

ナゾロジー

の記事をもっとみる