低コストで画像認識AIを実現するバックボーンネットワーク「VoVNet」...ETRIが一般公開

ロボティア編集部
ロボティア編集部
Photo by ETRI

韓国電子通信研究院(ETRI)は12日、画像解析に使われる人工知能(AI)の中心的な技術「VoVNet」(Variety of View Network)を、オープンソースで公開すると発表した。

VoVNetは画像認識AIを実現するためのバックボーンネットワーク技術(様々なネットワークを接続するコアネットワーク)だ。写真の中の対象の特徴を発見し、情報を分析した後、人工ニューラルネットワークのモデルを生成する。

ETRIは人物の顔を自然に編集したり、また落書きなどから復元することができる「SC-FEGAN」という技術も同時に公開した。フォトショップなど専用のソフトがなくとも、アクセサリーを付け足したり、髪形を変化させるなどの加工を行うことができる。

両技術は、ディープラーニングの手法のひとつである「GAN」(Generative adversarial Network)を適用したものだ。今後、コンピュータグラフィックス、ウェブデザイン、工業デザインなどの分野で、成果物の品質向上に資することができると期待されている。

ETRIは人工知能の学習に必要なイメージ(都市環境に関連したモノの画像など)を約560種、また認識学習用データ20万枚もともに公開する。データには、電柱・信号・自動車など監視カメラに録画されたものが含まれており、都市、安全、環境、交通など多様な分野で活用することが想定されている。

これらの技術およびデータは、オープンソースコミュニティ・GitHubで利用可能だ。

ETRIの視覚知能研究室長を務めるパク・チョンヨル氏は「これまで外国企業が公開してきたバックボーンネットワーク技術を多く使用してきたが、性能に優れたコンピュータが必要でコストがかかった」とし、「同技術は低スペックのコンピュータでも視覚知能分析が可能となり関連分野のベンチャー業界に役立つだろう」と説明している。