9言語対応「AI音声認識技術」登場...東京五輪までに14言語に拡大

　韓国電子通信研究院（以下、ETRI）が、英語、日本語、中国語など9言語の音声を認識できるAI音声認識技術を開発したと、4月18日に発表した。ETRI側の説明によれば、日常生活で使う会話の最大95％を認識し、文字に変換することができるという。

　ここ数年、家電、携帯・通信、銀行などの商業分野では、音声認識技術を使った製品やサービスを活用していこうという動きが盛んだ。しかし、認識率の向上が思ったより上手く行かないという課題に直面している。

　ETRIの研究チームは今回、ディープラーニングなどAI技術を駆使して音声認識技術を開発した。なお、9カ国語もの多言語を認識する技術が開発されたのは、世界的にも今回が初めて。Googleと比較しても韓国語の認識率は96％と優位にあり、他の言語の認識率は90〜95％程度で似たような水準だとETRI関係者は伝えている。今後、ETRIの音声認識技術は通訳サービス、人工知能アシスタント、放送音声の字幕化、コールセンターサービスなどへの活用が期待されている。

　ETRIは独自に開発した通訳アプリ「ジニートーク」（Genie Talk）に9言語の音声認識技術を搭載し、来年に開催される平昌冬季オリンピックの期間に、外国からの観光客にサービスを提供する予定である。東京オリンピックが開催される2020年までには、サービス対象言語を14個まで増やす方針だ。

　ETRIのキム・サンフン博士は「国内移動通信会社との技術移転を議論中（中略）今後、東南アジア圏の言語、ヒンディー語など他の言語にもサービスを拡大する計画だ」と、今後の方針について言及している。

photo by ETRI