フェイクニュースも排除! ロイターの新型ロボット記者は「情報追跡型」...テストでニュースの7割カバー

ロイター・トレーサーはまず、ツイッターで「データの流れ」をつかむことから始める。毎日、ツイート全体の2%(約1200万件)を抽出。そのうち半分はランダム、残りの半分のロイターが作成したアカウントリストから抽出する。後者には企業やマスコミ、有名人などが含まれる。次いで、ツイートの同時多発性からニュースの発生時期を特定する。

ニュースを特定・分類した後、複数のアルゴリズムを利用して作成すべき記事の優先順位を決める。ロイター・トレーサーは、毎日1200万件のツイートを処理すると前述したが、そのうち80%をノイズとして除去。残りの20%については、6000種類のニュースに分類する。そのプロセスは、10種類のアルゴリズムを実行する13台のサーバー上で実行されている。

抽出されたツイートは、CNNやニューヨーク・タイムズ、BBCなど世界の主要メディアの公式Twitterアカウントのツイート、ロイターが作成したニュースのデータベースとも比較される。その際、ニュースの発生位置も特定される。

そのようにツイートを分析してニュースを判断するとしたら、内容の真偽も重要となってくる。そこでロイター・トレーサーはソース(Webページなど)を確認。並行して、フェイクニュースや風刺ニュースを掲載するサイトのデータとも比較作業も行う。

テスト期間中、ロイター・トレーサーのシステムはある程度しっかりと動作したとロイター研究チームは伝えている。 ロイターは、作成された記事をBBCやCNNなど主要な報道機関のニュースフィードに掲載された記事と比較した。そして「競合他社に負けない精度と適時性、信頼性を通じてニュースを検索・展開することができた(中略)2%のツイッターデータを抽出することで、約70%のニュースをカバーすることができた」と結論付けている。

今後、ツイッターをデータソースとする以上、悪意ある人々がソースを歪曲する可能性を考慮してアップデートしていく必要があるだろう。しかし研究の動向を見る限り、AIがニュース作成を担う範囲が広がり続けるということだけは間違いなさそうである。