Googleアシスタントvs. Amazonアレクサ…訛りを正確に理解できたのはどっち!?

　Siriの誕生を皮切りに、グーグルホームやアマゾンエコー、コルタナといった家庭用音声パーソナルアシスタントデバイスが続々登場している。マイクロソフトはサムスン・エレクトロニクスの傘下ハーマン・カードンと共同でコルタナ内蔵のスマートスピーカー「Invoke（インボーク）」を開発。アマゾンは今月上旬、最新AI端末「Echo Show（エコー・ショー）」を発表したばかりだ。グーグルの家庭用音声アシスタント「グーグルホーム」は機能がさらに充実し、よりスマートなデバイスへと変貌しつつある。

　そんななか、Siri、グーグルホームに搭載された会話型AI「グーグルアシスタント」、アマゾンエコーの音声AI機能「アレクサ」のうち、どのスピーカーが最も正確に音声を認識可能かどうかを見るための実験が、海外メディア大手「WIRED」主導で行われ、これを海外メディアが報じた。

　一言に英語と言っても、オーストラリアで話されている英語と米国の英語とでは、発音、語彙等に違いがある。そのうえ、人が話す言語というのは出生地や社会的階層等に影響され得る。したがって、音声アシスタントAIは使用者の言語知識を網羅しただけでは発話内容に追いつくことができず、それゆえ個々の話者の訛りへの順化が求められる。そこでWIREDは、発音、スペルともに難しく、話し方に地域差が生じやすい「Worcestershire sauce（ウスターシャー・ソース）」のような単語を上記の3タイプのスピーカーに喋らせ、訛りの程度を見るという実験を行った。

　グーグルは後発で音声AI市場に参入したが、その会話型AI「Googleアシスタント」はSiriやアレクサに比べ、訛りをきちんと理解していたという。同社はこれまで蓄積してきた言語データという資産を武器に、自然言語のスペシャリストとともに研究開発を数年にわたり行ってきた。

　グーグルの音声認識技術は日々進歩している。同社CEOサンダー・ピチャイ（Sundar Pichai）氏は先日、米国英語の単語の誤認率がついに5%を切ったことを発表した。

photo by google