検索エンジンや機械翻訳、音声認識など、人工知能の領域のひとつである「自然言語処理技術」が、ここ数年めざましい発展を遂げている。機械翻訳ソフトや家庭用AIスピーカーなど、GAFAを中心としたIT企業群のサービスおよびプロダクトの精度向上の実例を挙げていけば枚挙に暇がない。
今年2月には、日本でも三菱電機が独自技術を用いた「シームレス音声認識技術」を発表した。これは、スマートフォンやカーナビに搭載されるシステムだが、登録されている言語であれば話者が言語設定をわざわざ切り替えたりする必要がない。また、複数の言語で同時に話しかけても認識する、つまり「言語の障壁がない=シームレス」な音声認識技術だという。
それら自然言語処理技術の発展動向を俯瞰する限り、機械の言語認識能力向上の流れはとどまることがさそうだ。画像認識技術のように、精度やエラー率において人間の能力を凌駕する日が訪れるのかもしれない。もしかしたら、多くの人間が同時かつ多言語で話しかけても聞き分ける、聖徳太子のようなAIシステムがいずれ登場する可能性もある。ただ一方で、「AI×言語」、もしくは「デジタル×言語」という領域には、いくつかの課題もある。その最たるもののひとつが、少数言語への対応である。
数年前、欧州の60の研究センターを統合する学術団体メタネット」(META-NET)の共同プロジェクトが、興味深い発表を行った。自動翻訳、音声コミュニケーション、テキスト分析、利用可能な言語資源といった観点から、欧州の30の言語についてデジタル上の言語技術サポート状況を検証した結果、アイスランド語、ラトヴィア語、リトアニア語、マルタ語、ブルガリア語、ギリシャ語、ハンガリー語、ポーランド語など、21の言語が、デジタル時代に消滅の危機にあると評価・指摘したのだ。
話者の少ない少数言語は、ビジネス的な観点からするとどうしても後回し、もしくは無視されがちだ。例えば、「AIスピーカーの認識率が向上した」という各報道があるが、「英語など主要言語に対するAIスピーカーの認識率が向上した」という方がより正確であろう。多くの少数言語は、そもそも認識技術の対象とさえされていない。メタネットの発表は、そのようなデジタル上の言語サポート状況の格差や、テクノロジーの発展に取り残されていく言語の存在に警鐘を鳴らすものであり、現在もその状況は大きく好転していない。
「少数言語を含むデジタル時代における各言語のあり方については、議論が深められる必要がある」
そう指摘するのは、東京外国語大学アジア・アフリカ言語文化研究所の中山俊秀教授。ワカシュ諸言語(北米北西海岸地域の言語)などを研究する、少数言語問題の専門家である。
「経済的なコストや効率性を考えると、そもそも人間の言語はひとつのほうが社会にとって都合が良いと思われるかもしれません。使う言語がみな同じであれば、コミュニケーションの齟齬や誤解も減るかもしれない。例えば、カナダでは英語とフランス語が公用語で、すべてが二言語表示。商品の説明書なども倍の厚さになる。一見、とても非効率ですよね。紙ももったいない(笑)。インターネットが普及し、各個人に多くの人々との接点が日々生まれているデジタル社会にあっては、言語の多様さはなおさら非効率なものと捉われてしまいがちです。しかし、さまざまな言語が存在し続けることは、人間社会にとって非常に価値が高いことでもあるのです」
特定の社会集団には、挨拶、ユーモア、食事の作法やお金の払い方などなど、共通した生活習慣があるが、言語もそのような「ふるまい方のひとつ」。同じ意味を持つ外国語や他言語に翻訳したとしても、決して伝えきれない“エクストラな価値”が各言語に内在していると中山氏は強調する。例えば、英語には、「お疲れ様」や「恐縮です」などの日本語をそのまま表現できる言葉がない。同様に、各言語にはその言葉を使うことでしか伝わらない、いたわりや喜び、怒り、悲しみなどさまざまな感情が含まれる。その各言語の微細なニュアンスは、それぞれの集団内に固有の価値を生んでいるのだという。
「また世界の各地域や社会によって、関心を持つ対象やその対象を表す言葉の数やバラエティーが異なります。例えば、日本だと米を表す言葉が豊か。一方、砂漠の人々は砂の色やラクダの状態を説明する言葉が豊富です。イヌイットなら雪、モンゴルなら馬の毛並、南米の先住民なら薬草と、それぞれ多様な形態や種類を区別する語彙がたくさんある。それらは、マクロな視点で見た際、人類が築き上げた多様性であると同時に知的な財産なのです。それが消滅していくということは、個人レベルでは社会との接点や選択肢、多面性を失うこと。人類全体としては知が失われていくことを意味します」
特定の言語の消滅を避けることは、イノベーションにとっても重要なはずだ。現代社会は、社会環境、自然環境問わず急激な変化を遂げており、社会的課題も次々と噴出している。しかし、同じ考えや価値観、見識、知識しか持たない画一的な集団では、解決法を考え出す際に限界がある。すなわち、多様性をいかに生み出し担保するかがイノベーションのひとつのカギとなるが、中山氏の話を聞く限り、人間や知識の多様性さは言語の多様さに直結している。
デジタル空間において言語の多様性を守ろうという動きは、少しずつだが大手IT企業にも意識され始めている。例えば、米マイクロソフトの翻訳機能「Microsoft Translator」には、前述のメタネットが消滅する言語リストに挙げ、現時点で話者が40万人に満たないアイスランド語が新たに追加された。すでにWindows 10、Kindle Fire、Outlook、Microsoft Word、Bing、iOSなどで利用可能となっているという。その動きは単純な道徳的観点からではなく、多様性や知の保存を目標としていることは想像に難くない。
なお、「世界にある言語のほとんどは文字を持たない」と中山氏。音声認識・音声対話が可能なAIソフトウェアおよび各種プロダクトが、少数言語に対応していくのはとても有意義なことかもしれないと話す。実際、一部の文字を持たない少数言語話者の中では、チャットアプリのボイスレコーダー機能を多く活用する傾向も見られるという。彼らにとって、いちいちアルファベットに置き換えてチャットするのは面倒で非効率だ。韓国では、文字をタイプするのが苦手な高齢者にAIスピーカーが人気という話もあるが、どこか相通じる話ではないだろうか。ユーザーインタフェースの設計というテーマは、少数言語への対応という文脈でとても重要になりそうだ。
「個人的には、少数言語を維持・保存することはすなわち、各言語を使う人々および社会を維持・保存することだと考えています。少数言語を博物館の標本のように集めておくことが保存だと考えている人もいますが、言語は使われてこそ意味がある。デジタル技術やAI技術で少数言語をサポートするというのも解決策のひとつではありますが、そのほかにも、構成人数が少ない社会集団やコミュニティを守る手段としてデジタル技術を利活用していく道はたくさんあるのではないでしょうか」
少数民族の生活や営みを守ってこそ言語の多様性を守れる。また、そこにテクノロジーが寄与できることは多いのではないか――。中山氏の指摘は、デジタル時代における少数言語問題の本質を突いている。5Gなど通信環境が拡充されていけば、僻地にいる部族や民族の通信手段が確保される。また、ドローンを飛ばし物資調達など経済活動を円滑化する道も拓けるだろう。デジタル空間において“データ”として少数言語をサポートする以外にも、特定の社会集団の生活を守るためのテクノロジーの使い道は無限大だ。足りないのは、社会的なコンセンサスなのかもしれない。自然言語処理技術の発達が進むなか、“小さな言語”が生き続けることの意義を改めて社会全体で問うていく必要がある。
Photo by Howard Lawrence B on Unsplash