Googleが文章を要約する人工知能の開発動向を公開

ロボティア編集部2016年9月10日(土曜日)

 Googleが、記事要約文・タイトルを作成する人工知能の能力を公開した。 Googleブレインチームのソフトウェアエンジニア、ピーター・リュウ(Peter Liu)氏は8月24日、Googleリサーチ公式ブログに、「テンサーフローライブラリを使用したテキストの要約(Text summarization with TensorFlow)」という記事を掲載した。

「要約は機械の読み取りする力を支える。要約をこなすため、機械学習モデルはドキュメントから重要な情報を抽出することが必要だが、これはコンピュータには大変やりがいのある仕事だ」(ピーター・リュウ氏)

 リュウ氏ら研究チームは、機械学習によるテキスト要約のために試みた、いくつかのアプローチについて説明している。例えば「アリスとボブは、列車に乗って動物園に行った。彼らは子供のキリン、ライオン、色とりどりの熱帯鳥の群れを見た」というような原文が与えられたとき、それら各アプローチによって異なる結果が出るという説明だ。

 アプローチのひとつとしては、テキストマイニング分野の「逆文書頻度(IDF)」のような指標を活用して、ドキュメント内の重要に見える部分を抽出し、それを要約する方式だ。このアプローチでは「アリスとボブは動物園に行く。鳥の群れを見た」という結果となった。このような抜粋方法だと、文法的に奇妙な感じがする。

 他のひとつは、本文の一部を強制的に抜粋すという風ではなく、内容をある程度書き換えさせる方式である。いわゆる「抽象的な要約(abstractive summarization)」と名付けられたアプローチを適用した結果は次のようになった。

「アリスとボブは動物園に行き、獣や鳥を見た」

 リュウ氏は「この例では、我々は似たような分量の単語により多くの情報を保存するため、原文にない単語を用いた(中略)抽象的要約がより良い方法であることが明らかだった」としている。

テンサーフロー

 これらの研究成果をもとに、研究チームはニュースのヘッドライン作成を試みた。ヘッドラインは、タイトルや見出しと置き換えても問題なさそうだ。いずれも、文章の重要部分を要約してまとめたものである。作成されたヘッドラインは以下の通り。その性能を分かりやすくするため、原文も添える。

「MGMは、今年導入された会計規則の影響で、1600万ドルの純損失を記録した第3四半期の業績を公開した」

見出し→「MGM、増えた売上高に1600万の純損失公開」

「7月1日から中国南部の海南省の島は、流行性伝染病の拡散を防止するために、すべての家畜と肉加工品の輸入に、強力な市場アクセス制限措置を取り始める」

見出し→「海南、疾病拡散防止へ」

「9月のオーストラリアワイン輸出量が、2億6000万ドル(米貨1億4300万ドル)に相当する5210万リットルを記録したと、月曜日、政府統計庁が発表した」

見出し→「9月、オーストラリアワイン輸出量の高い記録を立て」

 Googleはこのモデルを訓練させるために、ジョンホプキンス大学で作成された「Annotated English Gigaword」と呼ばれるデータセットを使用した。このデータセットは、英語のニュース通信サービスで作成されたニュース記事1万件、約40億個の単語で構成されたもの。IBMのワトソン研究チームが行った、同じような趣旨の研究の際にも使用されたデータセットだという。