Facebookのオープンソースモデル「M2M-100」は100種類の言語間の翻訳が可能
Facebookは20日、英語データに頼らずに100言語の任意のペア間で翻訳できる初めてのアルゴリズムであるM2M-100をオープンソース化した。2,200の言語ペアで訓練されたこの機械学習モデルは、機械翻訳の性能を評価するために一般的に使用される指標において、英語中心のシステムを表向きは凌駕している。
Facebookは20日、英語データに頼らずに100言語の任意のペア間で翻訳できる初めてのアルゴリズムであるM2M-100をオープンソース化した。2,200の言語ペアで訓練されたこの機械学習モデルは、機械翻訳の性能を評価するために一般的に使用される指標において、英語中心のシステムを表向きは凌駕している。
多言語機械翻訳の目標は、世界の7,000以上の言語のどのペア間でも翻訳できるモデルを構築することである。多言語翻訳モデルは、類似した言語間で情報を共有することで、リソースの少ない言語ペアに利益をもたらし、ゼロショット翻訳、つまりモデルが見たことのない言語への翻訳を可能にする。モデルのサイズが大きくなると、より大きなデータセットが必要となり、作成に手間がかかり、作成が困難になるため、英語のデータセットやモデリング技術に注目する研究者もいる(例えば、100の言語をサポートするには、1000億個の文対が必要となる)。しかし、データとモデリングにおけるこの偏りは、人々が翻訳をどのように利用しているかを反映しておらず、英語以外の翻訳のパフォーマンスの悪化につながっている。
対照的に、FacebookのM2M-100は、100の異なる言語にまたがる75億文以上のデータセットに基づいて学習された。M2M-100を構築するために、Facebookの研究者たちは、言語選択の指針となる3つの基準を決めた。彼らは、地理的に多様性があり、広く話されている異なる系列の言語を含むことを求めた。次に、モデルのパフォーマンスを定量化しやすくするために、評価データが存在する言語に絞り込んだ。最後に、残りの言語の中から、単言語データがない言語を除外した。
M2M-100は、1言語のデータから学習し、100言語でタスクを実行できるFacebookの多言語モデル、XLM-Rをベースにしている。7月には、Facebookは51の異なる言語をサポートする音声認識モデルを発表した。さらに最近では、多くの異なる言語からラベル付けされていないデータをタップして、言語をまたいだ文を採掘し、優れたモデルを訓練するCRISSについても詳細に説明している。
「何年も前から、AI研究者たちは、さまざまなタスクですべての言語を理解できる単一の普遍的なモデルを構築することに取り組んできた」と、Facebook AI Research Parisのデータサイエンティストであるアンジェラ・ファンはブログ記事で書いている。「すべての言語、方言、モダリティをサポートする単一のモデルは、私たちがより多くの人々にサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々のための新しい経験を均等に作成するのに役立つ」。
M2M-100のために、Facebookの研究者たちは、様々なソースから表向きは高品質のデータを採掘するために、新しい言語識別技術を採用した。1つは、自然言語処理モデルのゼロショット転送を行うオープンソースのツールキットであるLASER(Language-Agnostic Sentence Representations)だ。他の2つは、翻訳モデルを訓練するための「10億規模」のbitextデータセットであるCCMatrixと、言語横断的なウェブ文書ペアの大規模なコレクションであるCCAlignedだ。
Facebookの研究者は翻訳需要が統計的にまれであったペアを避け、言語が分類、地理学、および文化的類似性に基づいて14の家族にグループ化された「橋のマイニングの作戦」を導入した(アイスランド語・ネパール語またはシンハラ語・ジャワ語のような)。直感的には、同じグループに属する言語を持つ国に住む人々は、より頻繁にコミュニケーションを取り、より質の高い翻訳の恩恵を受けることができるだろうというものだった。例えば、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されている様々な言語を1つの家族に含めることができる。
異なる家族の言語を接続するには, Facebookの研究者は、「ブリッジ言語」の数が少ない、または各家族の1つから3つの主要な言語を特定した。例えば、ヒンディー語、ベンガル語、タミル語は、データセットのインド・アーリア語のブリッジ言語となった。次に、これらの架け橋言語のすべての可能な組み合わせについて学習データを掘り起こしたところ、前述の75億文のデータが得られた。
これは、ある言語でモデルをトレーニングし、それを使って単言語データを翻訳し、別の言語で合成された逆翻訳されたデータを作成する方法だ。例えば、中国語からフランス語への翻訳モデルを訓練することを目的とした場合、Facebookの研究者は、フランス語から中国語へのモデルを訓練し、単言語のフランス語データをすべて翻訳して中国語を作成する。M2M-100の開発の過程で、Facebookは採掘された言語に合成データを追加し、これまで見られなかった言語ペアのデータを作成した。
Facebookの研究者によると、M2M-100はモデルの並列性を利用して、現在のバイリンガルモデルよりも2桁大きいモデルをトレーニングすることができる。大規模なモデル学習のためのPyTorchツールであるFairscaleを使用して、モデルを何百枚ものグラフィックカードに分割し、同じデータで学習を行いました。M2M-100がパフォーマンスを落とさずにスケーリングできるようにするために、Facebookの研究者はモデルのパラメータ(予測に影響を与える変数、この文脈では翻訳)を言語の非重複グループに分割した。戦略のこのミックスは100の要因によってモデルの容量を増加させ、それはFacebookが主張しているものと言語を提供することが可能になった。
15.4億のパラメータで、Facebookは、追加のモデル容量を訓練するために最も多くのデータを持っていた高リソースの言語ペアのためのM2M-100で改善が見られたと述べています。「モデル容量の密なスケーリングと言語固有のパラメータ(合計30億個)を組み合わせることで、大規模なモデルの利点に加え、異なる言語に特化したレイヤーを学習する能力を提供する」とファンは書いている。
Facebookは、ネイティブスピーカーのグループに、英語を含まない20の言語ペア間の翻訳品質を評価させた。評価者は、翻訳の忠実さを比較的高く評価したが、M2M-100は、テキストの意味が失われたスラングで一字一句の翻訳を作成する傾向があることを指摘した。また、このモデルは、文中のコンマの欠落などの文法的な問題に影響を受けやすく、誤った解釈につながる可能性があることも判明した。
「多くの言語では、合理的な翻訳を確実に得ることができる前に、我々は実質的な改善を必要とする」とFacebookの研究者は、M2M-100を詳述した論文で認めた。「例としては、Xhosa語やZulu語などのアフリカの言語、カタロニア語やブルトン語などのヨーロッパの言語、イロコ語やセブアノ語などの東南アジアの言語などが挙げられる。これらの言語の多くは、インターネット上の単言語リソースでさえ限られており、トレーニングデータの量と質に大きな影響を与えている」。
言語モデルが訓練されたデータセットに存在するバイアスを増幅させて、バイアスのかかった表現で暗黙のうちに害を永続させているという十分な証拠がある。MIT、インテル、カナダのイニシアチブCIFARのAI研究者は、BERT、XLNet、OpenAIのGPT-2、およびRoBERTaから高レベルのバイアスを発見した。Allen Institute for AIの研究者は、現在の機械学習技術では有害な出力から十分に保護できるものはないと主張しており、より良いトレーニングセットとモデルアーキテクチャの必要性を強調している。これに加えて、Googleは、Google翻訳を支える翻訳モデル、特にトルコ語、フィンランド語、ペルシャ語、ハンガリー語のような資源の乏しい言語に関して、ジェンダー・バイアスの証拠を発見した(そして、それに対処したと主張している)。