Googleが文章を要約する人工知能の開発動向を公開

テンサーフロー

 これらの研究成果をもとに、研究チームはニュースのヘッドライン作成を試みた。ヘッドラインは、タイトルや見出しと置き換えても問題なさそうだ。いずれも、文章の重要部分を要約してまとめたものである。作成されたヘッドラインは以下の通り。その性能を分かりやすくするため、原文も添える。

「MGMは、今年導入された会計規則の影響で、1600万ドルの純損失を記録した第3四半期の業績を公開した」

見出し→「MGM、増えた売上高に1600万の純損失公開」

「7月1日から中国南部の海南省の島は、流行性伝染病の拡散を防止するために、すべての家畜と肉加工品の輸入に、強力な市場アクセス制限措置を取り始める」

見出し→「海南、疾病拡散防止へ」

「9月のオーストラリアワイン輸出量が、2億6000万ドル(米貨1億4300万ドル)に相当する5210万リットルを記録したと、月曜日、政府統計庁が発表した」

見出し→「9月、オーストラリアワイン輸出量の高い記録を立て」

 Googleはこのモデルを訓練させるために、ジョンホプキンス大学で作成された「Annotated English Gigaword」と呼ばれるデータセットを使用した。このデータセットは、英語のニュース通信サービスで作成されたニュース記事1万件、約40億個の単語で構成されたもの。IBMのワトソン研究チームが行った、同じような趣旨の研究の際にも使用されたデータセットだという。