世界的権威に聞く「ロボット×ディープラーニング最前線」

画像・音声認識や自然言語処理（人間が使用する言語をコンピューターに処理させる技術）などの分野で高い精度を実現するディープラーニング（深層学習）は、社会およびビジネス課題を解決する最新技術として期待を集めている。

ディープラーニングが技術トレンドとして浮上し数年が経過した現在、同技術はさまざまな産業へ応用されつつある。日本が競争力を誇る「ロボット産業」もそのひとつ。人工知能（AI）の最新技術であるディープラーニングとロボットは、いまどのように融合しようとしているのか。両分野に精通する世界的権威である早稲田大学・尾形哲也教授にお話しを伺った。

ロボットとディープラーニングの現在進行形の関係を語る際、その文脈は大きくふたつあると尾形氏は言う。ひとつは、サービスロボットのひとつにカテゴライズされている「コミュニケーションロボット」の能力向上だ。

ソフトバンクのロボット・ペッパーが例として最適かもしれまない。人工知能を搭載したコミュニケーションロボットは、人間の言葉や表情、声を「認識」し感情を読み取り、適切なリアクションや反応を示したり、時に人間のような感情表現を行うことができるようになってきている。

尾形氏はそれらをいわゆる「情報系（IT系）のロボット」と表現する。カメラ、スピーカー、マイクなどを使って外部の情報を収集し、人間に情報や、コミュニケーション、精神的サポートなど「非モノ」をサービスとして提供するロボットだ。言い換えれば、PCやタブレットの延長、もしくはそれらを“擬人化”したものが、ディープラーニングの力で一定の能力を獲得することに成功しているということになりる。

「コミュニケーションロボットの能力は、ディープラーニングを取り入れることで大きく向上しています。例えば、人間と機械が自然言語を取り交わすための『対話システム』。
現在、スマートスピーカーやAIアシスタントの言語認識能力の向上はめざましいですよね。それら認識能力は対話に限らず拡張されていくでしょう」（尾形氏）

一方で、工場や倉庫などで実際にモノを触ったり、動かすというタスクが要求される「産業用ロボット」にも、ディープラーニングを応用しようという世界的な流れが徐々に生まれている。なお、産業用ロボットにディープラーニングを使うというコンセプトが世に広まり始めたのは2015年から。また世界の学術系トップカンファレンスで「産業用ロボット×ディープラーニング」というキーワードが注目され始めたのはつい2年前、2017年からだと尾形氏は業界事情を説明する。

「産業用ロボットにディープラーニングを使うことを想定した上で、最初に研究が進んだ分野は『ビジョンシステム』。ロボットに物体の位置や掴む箇所を正確に認識させるというような研究です。ロボットの『視覚』と説明した方が分かりやすいかもしれませんね。意外かもしれませんが、一昔前までの産業用ロボットは物体の位置を正確かつ柔軟に把握するという能力を与えることすらとても大変なことだったんですよ。それが、ディープラーニングの登場で事情が変わってきた。また、今年5月に開催された米国電気電子学会（IEEE）が主催する世界トップカンファレンス『ICRA』では、『視覚』だけでなく、『触覚』や『力覚』の能力を向上させるためのディープラーニング研究事例などが多く発表・評価されています」（尾形氏）

少し補足する必要があるかもしれない。従来の産業用ロボットは、人間がその動きをこと細かくプログラムすることで稼働してきた。例えば、工場の生産ラインがあるとして、流れてくる部品や材料の形やスピードなど外部環境をすべて人間が一定に揃えた上で、さらに正確にモノを取り上げたり、吸い付けたりできるよう、1から10まで人間がロボットの動きを制御（プログラミング）していた。

また従来の産業用ロボットは、柔らかい、もしくは形が異なるモノを同時に扱うことがほぼほぼ不可能だった。人間のように、現場で柔軟かつ即時に状況を判断し、モノの性質によって対応すること困難だったのだ。そのため、自動車や家電など大規模な設備投資が行える大企業にとっては生産性を高めるツールになりえたが、ピッキングや仕分け、化粧品や食料品など、扱う対象の形が一定ではない産業では戦力足りえなかった。

しかし、ディープラーニングの登場は、そのような産業用ロボットの“常識”を覆そうとしている。産業用ロボットが視覚や触覚、力覚を持ち、より人間のような判断や柔軟な作業が可能になろうとしているのだ。もちろん、人間より力持ちであるというロボットのアドバンテージは変わることがない。加えて、極端な例を言えば、豆腐と大根が一緒に流れてくる生産ラインでも持ち上げたり、握る力をそれぞれ最適化したり、段ボールに雑然と詰め込まれた対象物を自律的に判断して仕訳けたりすることができるようになろうとしている。

しかも、ディープラーニングの最大の特徴は、環境のモデリングや認識システムのプログラミングを大幅に省略できること。データを大量に与えることで、ロボット（もしくは機械）自ら最適な判断の基準、もしくは動きを“生み出す”という特徴がある。

「産業用ロボット分野におけるディープラーニング研究は、これからまさに始まろうとしている段階です。しかし、その注目度は年々高まっています。先ほど申し上げたICRAの参加者はここ数年、約2000人で推移していました。しかし、2019年は2倍の4000人ほどまでにいたっています。そもそも、ロボット学会関連のカンファレンスは1000～2000人が参加したら『すごい！』とされていたのにもかかわらずです」（尾形氏）

同分野に参画する研究者が増えるにしたがい、論文数というアカデミアの視点でいえばロボット大国・日本の地位も変化を遂げ始めていると尾形氏は状況を説明する。

「2019年時点で日本の論文数は第7位となっています。ここ10～20年前までは、日米がツートップ。ここ数年でドイツが入ってきて三者三つ巴という感じでした。しかし、昨年頃から中国が台頭して2位に。今回、日本はスイスや英国にも抜かれて7位となってしまったのです。これは日本の研究力が落ちたという見方もできるのですが、私個人的には周囲の国の研究力が伸びたという認識。産業への応用という意味では日本にアドバンテージが残っている側面もあるのですが、とかくアカデミアの世界では地殻変動が起きているのが実情です」

尾形氏は産業用ロボットとディープラーニングの融合は、将来的に企業の競争力を担保する源泉になると主張する。尾形氏の直近の研究成果の一例としては、日立と共同研究する「ドアを開けて通過するロボット」がある。同ロボットの全身制御には、ディープラーニングが使用されている。

「ロボットを知能化する研究には、おおまかにふたつの方向があります。ひとつはロボット自体が頑張って学習する『強化学習』と、もうひとつは人間の動きを模倣させる『模倣学習』です。日立との共同研究では、後者の技術を取り入れドアを開けて自律的に通過していくロボットを開発しました。研究過程においては、ドアを認識する、開ける、通り抜けるなどのタスクは別々に学習させます。しかしその後、ロボットは自らその一連の動作を繋いで適切な動きのフローを実現していきます」（尾形氏）

尾形氏らが開発するロボットの特徴は、頭の中で常に「未来の状況を予測」することだ。

より正確には「未来にそうなるであろう状況のイメージ」を、常に頭のなかに「生成」し続けている。ディープラーニングは、与えられたデータを学習することで、それまで存在しなかった新しいものを生成する能力を持っている。

例えば、猫や人の画像を大量に学習させると、それまでなかったまったく新しい画像を生み出すというようなことが可能だ。最近、巷ではその生成能力、もしくは生成された新たなイメージや動画は「ディープフェイク」という名で呼ばれてる。

尾形氏らが研究する「ドアを開けて通過するロボット」は、その生成能力を応用し、0コンマ何秒後に予想されうる未来のイメージを常に頭の中に描き続ける。そして、その未来の状況に対応するための動きも同時に生成する。実はこのロボットの動作原理は、「人間と同じ」と尾形氏は言う。人間が見ていると思っている世界は、「そうなるであろう」と脳が想像した「未来のイメージ」だ。

つまり、人間の脳は「少し先の未来のイメージ」を生成し続けており、人間はその“脳内世界”で状況を判断し、次の行動を選択する。その能力をコピー・移植したのが、尾形氏らが開発するロボットだ。

「開発した新しいロボットは、従来のロボットとは異なり、ドアの位置が少々変わっても柔軟に対応することができます。というのも、自分がこう動いたら、イメージや視覚もこう変わるはずだ、またこう動けばいいはずだという、視覚と手の動きディープラーニングで予測させて実際に処理させているからです。しかも、学習ですべてやっていくので、ロボットのプランニングモデルの開発（プログラミング）をする必要ありません。つまり、これまで数ヶ月かかっていた開発が数日で終わる。ドアノブを変えても1日、ドアノブを押すタイプから引くタイプに変えても1日、どんどんモジュールを足していけば複雑な処理をできるようになります」（尾形氏）

この尾形氏らのディープラーニング技術は、さらにアーム型の産業用ロボットにも応用されている。例えば，人間より正確に計量を行える技術を、顧問を務めるエクサウィザーズ、DENSO、大成建設など大手企業とともに開発している。

「企業の工場などでは、製品を製造する過程でさまざまな液体・粉末原料を扱うケースがあります。ただし、それが特殊な粉だったり、放射性物質だったりすると、現場のスタッフの方々が手作業でやるのは困難だし危険。そこで人間の能力をディープラーニングで移植して、ロボットに正確かつ素早くこなさせようという研究を行いました。その過程では、対象物が粉なのか液体なのか、またねばねばなど粘性がどれくらいなのかを、ロボットが初見で判断して、誤差なく適切な計量を行うことに成功しています」（尾形氏）

ディープラーニングを使って、ロボットの動きをより人間に近づけようとする尾形氏の成功的な研究事例はその他にもある。それぞれ形や状態が異なるタオルを畳む技術、サラダを盛り付ける技術がそれにあたる。通底しているのは、いずれもディープラーニングを使って、データを学習させさせれば環境モデルや制御などのプログラミングせずともロボットが勝手に動作を覚えて実行していくという点だ。

「産業用ロボットにディープラーニングを適用する研究が進み、私個人としは技術的に実用化も視野に入ってきている段階だと考えています。とはいえ、メーカーや企業の中で、ディープラーニングに対する姿勢は割れているというのが現状。その理由としては、そもそもディープラーニングなど機械学習が再現する動きの精度が100％ではないということ、またブラックボックスが生まれてしまうという特徴があります」（尾形氏）

ロボット大国という名称を冠する理由になった日本の産業用ロボットは、高品質、つまり限りなく100％に近い精度を発揮することを競争力のひとつとして、国際市場で支持を集めてきた。しかし、ディープラーニングは95％ほどの精度は担保できるものの、多くの場合、完全に100％にまでは至らないという性質がある。

そもそも、「教えられたことを忠実にやる技術」ではなく、「試行錯誤を繰り返して正解を学ぶがため、他のケースにも柔軟に対応できる技術」なのだ。前者と後者は本質的に異なる技術だが、現在の日本のロボットメーカーは、どちらかというと前者を徹底することで覇権を勝ち取ってきたという成功体験に支えられている。そのため、ディープラーニングについて懐疑的な関係者も少なくないという。もうひとつが、ブラックボックス問題だ。

「これまでの産業用ロボットのプログラムは、人間が考えうる限界のなかでつくられてきました。しかし、ディープラーニングはデータを集めてくるとアルゴリズムが生まれるという性質のもの。すなわち、人間の認知限界を超えた膨大なデータを学習して能力を発揮するということがメリットなのですが、一方で入力次元が数千、数万、数十万あり、数億、数十億というネットワークのなかでアウトプットが吐き出されます。その関係性を理解する手立ては、今のところ人間にはありません。そのため、何か機械やロボットに不具合があった際には、人間が理解できないブラックボックスになると困るという訳です」（尾形氏）

まず、精度の問題に関しては、「ロボットは必ずしも一度で成功する必要はないタスクも多い．数度やり直しをさせることで、精度を100％に近くするという考え方が重要」と尾形氏。
また「ブラックボックスの問題に関しては、ホワイトボックス化する技術の開発とともに、ブラックボックスであることを受け入れていくことも重要でないか」と説く。

人間のパートナーとしては「盲導犬」や「空港警備犬」が挙げられるが、彼らの頭の中は人間には分かない。つまり、ブラックボックスだ。しかし、人間はその“精度”を信じて疑わない。（たまに噛まれることもあるかもしれないが）。理解できない存在を認めて共存するという選択は、「人工知能」もしくは「ディープラーニング」にとっても必要となってくるということだ。

「いずれにせよ、産業用ロボットとディープラーニングというテーマは、世界的に加速していくでしょう。最終的に、少々のリスクを背負ってでも、使い倒した企業が競争力を確保し勝者になると思います。一にも二にも、ディープラーニングという技術の特徴を周知することが必須ですし、私個人としてはそのスピードを上げていかなければならないと日々、感じています」（尾形氏）

IT系のサービスロボットだけでなく、モノを扱い処理する産業用ロボットへの応用が進むディープラーニング。その掛け合わせの新たな成功体験は、技術への理解と未知への挑戦から生まれるのかもしれない。

Photo by James Pond on Unsplash