人工知能の注目トレンド「GAN:敵対的生成ネットワーク」とは

ロボティア編集部2017年3月8日(水曜日)

 昨今の人工知能ブームの中心にある「ディープラーニング」。その発展によって、画像認識や音声認識、機械翻訳などの多くのタスクの性能が飛躍的に向上した。

 そもそも、ディープラーニングがこれほどまでに有名になったきっかけは、2012年に開催された画像認識コンテスト(ImageNet Large ScaleVisual Recognition Challenge)だと言われている。カナダ・トロント大学のチームが約1200万画像・1000カテゴリの画像認識に対して初めてディープラーニングを適用し、圧倒的な精度を実証したのだ。彼らのチームは他に大きく差をつけ優勝。以来、同コンテストは毎年行われており、世界中の一流大学や研究機関が参加し、独自のアルゴリズムを競っている。

 それから数年、ディープラーニングは画像分野などで急速に拡大し、さまざまな革新を起こしている。米フェイスブックやマイクロソフト、中国バイドゥ(百度)といった海外大手IT企業も、画像検索や音声認識、自然言語処理などさまざまなサービスにディープラーニングを実用化している。

 このようにディープラーニングによる認識技術が発展する一方、「生成」技術においても大きな進化を遂げている。なかでも近年最も脚光を浴びている技術が「GAN:敵対的生成ネットワーク(Generative Adversarial Network)」。はたしてGANとは、どのような技術なのか。

 もともと機会学習の方法は、コンピュータに質問と回答を同時に教える方法が一般的であった。たとえば、犬の画像に「分類は犬である」という正解を付けたデータを読み込ませる。さらには「どうしてそれが犬に分類されるのか?」ということをコンピュータに考えさせ、「犬の特徴量」を自ら発見させる。そうすることによって、コンピュータはその特徴量のものが「犬」である、と学習していく仕組みだ。

 しかしコンピュータは、画像を一枚だけ解析して特徴量を覚えたところで、ほかの犬の画像を見せても、最初に覚えた犬の画像にそっくりでなければ、同じ「犬」だとは判別できない。したがって、膨大な量の犬の画像を読み込ませるのだ。このように膨大な特徴量から照合することで、「犬」を識別できる精度が上がっていく。そのように、これまでの機械学習はほとんどコンピュータにひとつひとつ答えを読み込ませていく「教師あり学習」だった。

 これに対してGANは、「ディープラーニング(Deep Learning)」という本の著者でもあるイアン・グッドフェロー(Ian Goodfellow)氏が考案したモデルで、いわゆる「教師なし学習(unsupervised learning)」である。これは、学習対象のデータはあるものの、それが何かという正解は与えられておらず、どうにかして何かしらの構造や法則を見いだすというもの。GANは、あたかも写真のようにリアルな画像の生成が可能であり、画像処理や情報可視化の分野で注目されている。

 GANにはそれぞれ、ジェネレーター(generator)とディスクリミネイター(discriminator)という2つのネットワークが登場する。ジェネレーターは本物と同じような内容を作り出そうとする一方、ディスクリミネイターはレプリカか本物なのかを識別する役割を担っている。

 レプリカを作る方は本物とできるだけ近づけようと努力し、対して識別する方は確実に見分けられるように、互いに競い合う仕組みとなっている。

 ディスクリミネイターの識別能力が次第に上がり、本物とレプリカをうまく見分けられるようになったとすると、ジェネレーターは更に本物に近いレプリカを造るようになる。ディスクリミネイターが本物とレプリカを見分けられるようにさらに精度を上げて…と繰り返していくと、最終的には本物と区別が付かないレプリカを製造できるようになるというわけだ。

 GANではこのように、ジェネレーターとディスクリミネイターの学習が互いに進んでいく。最終的には、ジェネレーターが「教師あり学習」で使われるような訓練データと同じようなデータを生成できるようになると期待されている。

 昨年12月にスペインで開催された、機械学習分野で世界最高学会のひとつであるNeural Information Processing Systems (NIPS) では、中国バイドゥの人工知能研究所長アンドリュー・ウン( Andrew Ng )氏が、機械学習(マシンラーニング)トレンドについて発言している。

「イメージ認識や音声認識など、これまで多くの大手企業に革新をもたらしたディープラーニング技術は、Convolutional NeuralNetwork(CNN:畳み込みニューラルネットワーク)、Recurrent Neural Network(RNN:再帰型ニューラルネットワーク)のような『教師あり学習』技術がほとんどでした。しかし、今年発表された多くの論文が示すように、未来のディープラーニング技術はGAN=敵対的生成ネットワークのような『教師なし学習』がリードしていくでしょう」

 このような見解を見せているのは、ウン氏だけではない。多くの専門家が今後、「教師なし学習」が、未来の人工知能を牽引していくだろうと予想している。

 GANの登場は、人工知能が何かを単に調べるだけの作業だけではなく、何かを生みだす、すなわち「生成」の作業にも活用できることを意味する。すなわち、人工知能は答えを与えてもらう受け身な「受動的認識」から、自発的に生み出せる「能動的行動」が可能となったのだ。GANは発表されて2年足らずで、イメージの生成から編集、変換、復元など、すでに様々なアプリケーションでその効果を発揮している。

 今後、GANは、イメージデータだけではなく、音声や自然言語などのデータにも適用される見通し。ゆくゆく、音声生成や編集、音声変換や復元なども可能になるのではないかと注目されている。

photo by wikimedia commons