フェイスブック(Facebook)がプラットフォーム上でのコンテンツの翻訳に斬新な手法を採用したと海外メディアは報じた。教師なし学習で行うアプローチであり、英語から希少言語であるウルドゥー語といった、翻訳サンプルの少ない言語ペアに適用可能であるという。
注目の翻訳手法は、フェイスブックAIリサーチ(Facebook AI Research=FAIR)が開発。FAIRは2013年、機械学習やコンピュータの視覚情報処理などの研究を加速化させることを目的に立ち上げられたフェイスブック社の人工知能研究部門である。
機械翻訳分野の同業他社は単一言語コーパスとパラレルコーパスの両方を活用している。一方、FAIRは単一言語コーパスのみに頼り、データを訓練させるという手法を採用した。
「パラレルコーパスの構築が必ずしもスムーズにいくとは限らない。例えば翻訳データの少ないポルトガル語‐ネパール語の場合、ポルトガル語、ネパール語に堪能な人をそれぞれ見つけ出すことは困難である。一方で、単一言語コーパスの場合、各々の言語で書かれたウェブサイトへアクセスし、ウェブページをダウンロードするだけで良いため、作業に手を煩わすことはない」(FAIRフランス研究所代表 アントワン・ボルデ氏)
気になるのは翻訳精度の高さだ。テクノロジーを専門に扱う海外メディアの報道によると、10万件の翻訳データを使って教え込まれた教師ありモデルと同等レベル。少なくとも、既存の希少言語ペア向け機械翻訳システムを凌駕するという。
「十分なデータが得られない言語ペアの場合には、教師ありモデルよりも我々のシステムが向いていることが証明された」(アントワン・ボルデ氏)
研究内容の詳細については、今秋ベルギー・ブリュッセルで開催される自然言語系国際会議「2018 Conference on Empirical Methods in Natural Language Processing」にて発表予定である。
希少言語の翻訳事情をめぐっては、日本国内で深刻な問題を抱えている。近年の訪日ブームにより、ベトナムやタイ、インドネシアなどの東南アジア諸国を中心に訪日観光客が急増。なお、今年4月には、来日外国人の犯罪件数に関してベトナム人が中国人を抜いたというニュースが報じられている。今後、特に東南アジア諸国からの入国者が増えるにつれ、彼らを言語面でサポート可能な人材のニーズは今後も増えていくことが予想される。
にもかかわらず、東南アジア諸言語を専門とする通訳・翻訳者は不足気味である。実際、翻訳実績が豊富な翻訳者が多数登録している日本翻訳者協会(JAT)や日本翻訳連盟(JTF)で検索をかけても、タイ語やベトナム語が堪能な翻訳者はほとんどと言っていいほどヒットしない。翻訳者にはただターゲット言語を理解するだけでなく、母語への高いスキル、対象分野に関する専門知識、調査力が求められている。しかしながら、特に東南アジア市場においては、これらの能力をオールマイティに兼ね備えた人材を見つけ出すのは困難である。
同業他社であるグーグルもまた希少言語への対応に強い関心を抱いている。東南アジアやアジア、アフリカにおける何十億にも及ぶ潜在的顧客を見込んでいるからだ。同社はグーグルアシスタントやウェブコンテンツの対応言語にインド諸言語を追加するなど、様々な対応策に乗り出している。アマゾンもインド市場に注目しており、さらに多くの顧客を獲得すべく事業計画を打ち出した。
引き続き、希少言語関連の機械翻訳研究の動向を追っていきたい。
Photo by FAIR HP