【寄稿】モバイルファーストの次に来る世界（前編）　音声認識テクノロジーで拡がるパーソナライゼーションの可能性

VUIが「次の10億人」に与える力

「ボイス」「デジタルアシスタント」「スマートスピーカー」、これらはVUI（音声ユーザーインターフェイス）に関連する言葉ですが、言葉から想像するイメージはその国や地域によって全く異なります。 (アイプロスペクトでは、デジタルアシスタントを通じて可能になるすべてのサービスをカバーする呼称として「ボイス」を使っています。) この記事では、2回にわけてボイスについての現状や将来を見ていきたいと思います。前半は広告・マーケティング領域における可能性を日本やその他の市場を対比しながらご紹介します。

最近では東京にいる私たちの周りでも、ボイスについてさまざまな意見や疑問を耳にするようになりました。

「ボイスという言葉はよく耳にするが、音楽を流したり、電気をつけたり消したりできるだけで、なぜそこまで普及しているのか分からない。」
「実際にボイスはいつ日本の市場に普及するのか？」
「多くの人々が使用していて、とても便利。ボイスは可能性にあふれていると思う」
「ボイスは世界を大きく変えている」

VUIのテーマをひとつとってみても、なぜこのような多様な意見があるのでしょうか？

日本語版のGoogle アシスタントとAlexaが日本で発表されたばかりの2018年、アイプロスペクトではAPAC（アジア太平洋地域）、ヨーロッパ、アメリカ大陸の約10,000人を対象に音声認識技術に関する利用目的と利用率の調査を行いました。その調査の結果、中国、インド、インドネシア、中南米など経済成長が活発な躍動的成長市場と、ヨーロッパ、日本、オーストラリアなどの成熟した保守的成長市場に分けて比較したところ、躍動的成長市場とされる地域でのボイス使用率はスマートフォンユーザーの70％と非常に高いことが分かりました。一方、保守的成長市場とされる地域ではボイスの使用率が低く、興味深い相違が見られます。

なぜ、このような違いが生じるのでしょうか？経済の発展が著しい躍動的成長市場ではより大きな変革が頻繁に起こります。躍動的な市場では、新しいことへの挑戦や新しい技術の導入に対してより寛容性が高いため、結果として興味深いイノベーションを受け入れやすい環境にあると推測されます。

KaiOS対応スマートフォンの例に見るボイスファースト市場

例えば、インド、インドネシア、LATAM（中南米地域）、アフリカの一部ではKaiOSと呼ばれるAndroidをさらにスリム化した携帯電話で、非常に安価（通常20ドル～40ドル）なスマート・フューチャー・フォンが急速に普及しています。高価なタッチスクリーンを省く代わりに、KaiOSにはGoogleアシスタントが搭載され、ユーザーの声でインターフェイスを操作し、電話やインターネットを使うことができます。

キーをタイプしてインターフェイスを操作することもできますが、ユーザーは声を使った操作のほうを選択することの方が多い可能性が多々あります。これは、読み書きができない人や覚える前の子どもにとって、インターネットという巨大な情報網に触れるチャンスの拡大となります。

現在、世界の4人に1人がインターネットを使用できていません。Googleはこの「次の10億人ユーザー（NBU）」に向け、プロダクトの創出やサービス拡大を支援する活動を行っています。格安データプラン、テクノロジー、そして5Gインターネットとともに、ボイスはNBUのインターネット利用を後押しし、更には人々の生活水準向上を加速させています。音声認識技術は、モバイルファースト市場の先にある、ボイスファーストの市場につながっているのです。

日本を含む保守的成長市場の状況と世界のボイス活用術

日本も属するこれらの市場は、高い生活水準の暮らしやサービスに長い期間にわたって順応しており、一定レベルの品質や利便性を下回るものは軽視されがちです。この市場の人々が初めて音声認識技術を使用したのは2011年 (日本語対応は2012年3月) にiPhone 4Sに搭載されたSiriだったと思われます。現在ではSiriをはじめとする音声アシスタントは、私たち人間よりも優れた音声認識技術を持っています（人間が話していることを理解できるレベルである95%の英語音声認識率を、Siriは2017年には超えています）が、保守的成長市場の人々には、認識率の精度が低いレベルで始まった2011年頃のSiriとの初期の対話がボイスについての印象としていまだに残っているようです。

この現状が「実際にボイスはいつ日本の市場に普及するのか？」といった質問にもつながります。しかしその答えは、「採り入れるための努力をしてもしなくても、いずれ普及していく」になるでしょう。

最近ではインターネットブラウザーでもボイスコントロール用のアドオンがリリースされ、テレビや電子レンジ、自動車、人気の時計やウェアラブルデバイスには音声アシスタントが搭載されています。今後はこれがもっと当たり前のものになるでしょうし、ボイス事業のビジネス面に関しては今まさに開発途上中と言えます。米国ではAlexaエージェンシーカリキュラムが発足され、今後はエージェンシーを巻き込んだマーケティング活動の激化が予想されているのです。

アイプロスペクトは、ユーザーが音声で何か検索した際GoogleアシスタントやSiriが正確に返答できるよう、音声検索エンジン最適化（SEO）サービスを提供しており、音声検索に対応したスニペット、コンテンツの最適化はウェブサイトのSEOにも大いに貢献します。また、Alexaを使用してユーザーがAmazonで商品を購入する際、クライアント企業の製品がおすすめされるよう、製品リストを最適化するAmazon内検索エンジン最適化（SEO）サービスも提供しています。

米国では、テレビ広告や屋外広告、ラジオにて「詳細はスマートスピーカーに聞いて」という文言を入れるなど、SiriやGoogleアシスタントに話しかけるよう促す広告が多々あります。広告内のQRコード、ウェブリンク、検索キーワードの機能と似ていますが、VUIは話すだけなので覚えやすくすぐに行動に移せます。また、これらのチャットボットを注文システムに組み込むことで、ユーザーがアカウント登録しているサイトやプラットフォームを離れることなく、対話しながら購入を完了することも可能です。VUIは対話型であることからウェブサイト上における購入フローよりも簡潔に設計されており、ウェブサイトで起こりがちな問題である、ロードが遅い、必要以上の詳細情報を入力させることによる離脱率を低くし、コンバージョン率改善へと導けるため売り上げの機会損失を低減できるのです。

小説も書けるAI言語モデルが登場 - ボイスの進化と拡がる可能性

従来のチャットボットは基本的に厳選された質問と回答が組み込まれており、ユーザーが入力した微妙なニュアンスに対し、最も関連性の高い情報やアクションとマッチングさせることで会話を成立させていました。音声アシスタントサービスがローンチされて以降の利用において通訳技術とNLP(自然言語処理)を進歩させる一方、自然な対話としての一貫性が欠けている部分があったのも事実です。

Googleは2020年1月に、より自然な会話の流れでどんな話題にも対応できるチャットボットMeenaを発表しています。Meenaは、26億のパラメーターから学習し、一貫した対話が可能です。Meenaと人間の自然な話し方を比較した研究によると、その差はわずか7％（人間の86％に対してMeenaは79％）まで縮まりました。また、イーロン・マスクやマイクロソフト社の出資で有名なOpenAI.ioは最近、1,750億のパラメーターを持つ驚異的なAI言語モデル「GPT-3」を発表しました。これは前述のMeenaの約67倍もの学習をしていることになります。分かり易く言うと、GPT-3は創造的な小説をも書くことができ、機能的なコードを生成することも可能です。ボイスは進化を続けている、ということがこれらの最新ニュースからもよくわかりますね。

チャットボットの進化と利便性の向上がビジネスに与える影響

バナー広告に埋め込まれたテキストベースのチャットや、インタラクティブ広告のように、今では広告とチャットしコミュニケーションを取ることができるチャットボット広告が普及しています。株式会社スプレッドオーバーにより日本の販促・マーケティング担当者を対象に行われた「2020年注目している広告手法に関する調査」でも、60.5％が注目している広告手法はチャットボット広告と回答しており、日本のマーケターの注目を集めています。チャットボット広告は複数の提案をプログラミングすることで、パーソナライズされた製品、サービス、機能など幅広い提案が１つの広告で可能です。

また、対話型のチャットボット広告は即座に広告のフィードバックを受けて反映でき、消費者のニーズに合わせて価値提案をダイナミックに変更できるだけでなく、興味がなくてもそれがフィードバックからわかるため、後の提案をより質の高い、効果的な広告へとアップデートできます。適切に開発されたチャットボット広告は、従来の静的なバナー広告よりもはるかに効率的で効果的です。

すでに購入を完了した商品や全く興味のない製品の広告を見せられた経験はありませんか？長い間、広告は「これを買って！ここを見て！話を聞いて！」のように一方的に消費者へ話しかけていたものの、対話できるチャットボット広告はその場で双方向のやり取りを可能にします。この対話によって、ユーザーにとっては何度も宣伝されるリターゲティング広告に感じるストレスの軽減、企業にとってはブランドイメージの保護にもつながるため、チャットボットの役割は大きなものであると言えるでしょう。パーソナライゼーションは、一見するとボイスと無関係のようですが実際にはサービスを提供するうえで最良な方法の1つとなります。

ボイスファースト構想は、モバイル以降の最大のプラットフォームシフトになる可能性が大いにあるため、ボイス事業に現在初期段階から先行して参入している企業は、今後大きな利点を得るでしょう。次回は日本市場にも浸透中のボイス事業とその将来性についてご紹介します。

▼寄稿者プロフィール

Nate Shurilla (ネイト・シュリラ)
iProspect グローバルリーダーシップ Global Director of Commerce & Voice。世界最大級のパフォーマンスエージェンシーiProspectにて、56か国約5000人が従事するコマース事業と音声認識事業のヘッドを務める。動向を先読みし、クライアントのニーズに合った戦略立案やプロジェクトを実行。異なる文化、考え方の中でコマースを根本から成功に導くべくGoogle, Amazon, Facebook, Microsoftなどのグローバルパートナーシップを担当し共同開発に取り組むほか、Forbes、ITmedia、ECのミカタなど国内外の有力メディアにおいて寄稿執筆やインタビュー経験も多数。世界各国のイベントで講演も行い、KOL(Key Opinion Leader)として情報発信を続けている。

土田晃子 (つちだあきこ)
アイプロスペクト・ジャパン株式会社 iP Labデジタルアシスタントイノベーション Leader。2016年5月にアイプロスペクト・ジャパンに入社し、データを活用したUI/UX向上提案を中心にクライアントビジネスに貢献。R&Dおよび戦略提案やイノベーションに特化したアイプロスペクト・ジャパン iP Labにて、2019年2月よりデジタルアシスタントイノベーションLeaderに就任し、日本における「ボイス」事業の活動をリードしている。

関連記事