AI利用した「フェイク映像」実験の恐怖!...音声を学習し口の動きを生成

ロボティア編集部2017年7月16日(日曜日)

 想像してみて欲しい。あなたは、恋人に内緒で異性の友人と食事にでかけている。もしくは、クラブでお酒を片手に羽目をはずしていたとしよう。すると、携帯電話に恋人から着信が。一旦、その場は寝たふりをしてやりすごしたものの、翌日の言い訳を考えているとなんだか憂鬱になってくる。

 近い将来、そんなシチュエーションで人工知能があなたの分身となり、恋人とテレビ通話をする役割を担ってくれるかもしれない。

 上にはふたつのオバマ大統領の姿が映し出されている。さて、左と右の映像のうち、どちらが本物か区別することができるだろうか。結論から先に言えば、少々、解像度が落ちる左の映像が本物で、顔がよりくっきりと映し出された印象のある右側がつくられた映像だ。

 この右の映像=フェイク映像は、米ワシントン大学の研究者が開発した人工知能(ニューラルネットワーク)が、オバマ大統領の映像を14時間にわたり学習して生成したもの。研究者らは、まず音声を収集し、その音声に合わせて唇の形を描き出した。そしてそこに実際の口の動きを合成したという。次いで、頭の動きや、目の動き、あごの形などを合成して、より自然な映像に加工した。音声ファイルのみが同じもので、話している場所、服、ジェスチャーは処理をほどこされたものだそうだ。

 一見、つくられた映像は完璧だが、よく見るとおかしな部分も。ダビングしたように音と口の形が一致していなかったり、顎がふたつ表示されるシーンがある。とはいえ、何も知らない状況で、ましてや初見で偽物映像と見抜くのはおそらく至難の業だ。

 音楽番組などでは「リップシンク」と呼ばれる口パク映像をつくる技術が重宝されているが、ワシントン大学が開発した同AIは、音声に合わせて実際には存在しない映像をつくってしまうという点で「ネオ・リップシンク技術」と呼んでも差し支えないかもしれない。なお下の映像では、よりリアルな偽映像を見ることができる。今後、学習データや時間が増えれば、より精密な偽映像をつくることも可能になるはずだ。

 現在、同研究はGoogle、Facebook、Intel、Samsung、ワシントン大学アニメーション研究所の支援を受けて進められている。その研究成果は、“不気味の谷”を克服するのに有用だと注目されているようだ。とはいえ、ほどなくフェイクニュースならぬ、フェイク映像が量産できる時代に突入するのだとしたら…。冒頭で人工知能が居留守をのための分身になるというような例え話をしたが、実際のところ技術の使われ方には警戒心を持っていく必要があるかもしれない。

Photo by YouTube