NAVERが音声合成AI「NES」を公開...40分の録音データで感情表現した自然な声を再現

LINEの親会社・NAVERが録音した音声データを合成する人工知能の新技術「NES」（Natural End-to-end Speech Synthesis）を公開した。NESはClova Voiceのウェブサイトで無料体験できる。

NESは40分レベルの録音データ（約400文章）を使用し、人間の声に近い自然な合成音を作成する技術だ。NAVER側は「従来、合成音を作成するには40〜100時間程度の音声が必要だったが、NESを使うことでより簡単・迅速に音声サービスを開発することができる」と説明している。基本音声の他、「喜び」「悲しみ」など感情が反映された声も提供する。

またNAVERは企業向けにNESベースの音声ビジネスパッケージ「Clova Premirem Voice」（CPV）も販売している。企業広告や顧客応対、オーディオコンテンツなどさまざまなシーンで、高品質な合成音を活用することができる。NAVERのクラウドプラットフォーム上で有料APIの形で提供されている。

NAVER Clova Voiceの責任者であるキム・ジェミン氏は、「NES技術を使うことで、誰でも簡単に自分だけの『ボイスフォント』を製作することができるだろう（中略）基本的な感情のほか、厳格なニュースアンカーの声、優しい友人の声など、さまざまなバージョンの合成音にまで拡大していく」としている。