Facebookのオープンソースモデル「M2M-100」は100種類の言語間の翻訳が可能

Facebookは20日、英語データに頼らずに100言語の任意のペア間で翻訳できる初めてのアルゴリズムであるM2M-100をオープンソース化した。2,200の言語ペアで訓練されたこの機械学習モデルは、機械翻訳の性能を評価するために一般的に使用される指標において、英語中心のシステムを表向きは凌駕している。

Facebookのオープンソースモデル「M2M-100」は100種類の言語間の翻訳が可能

Facebookは20日、英語データに頼らずに100言語の任意のペア間で翻訳できる初めてのアルゴリズムであるM2M-100オープンソース化した。2,200の言語ペアで訓練されたこの機械学習モデルは、機械翻訳の性能を評価するために一般的に使用される指標において、英語中心のシステムを表向きは凌駕している。

多言語機械翻訳の目標は、世界の7,000以上の言語のどのペア間でも翻訳できるモデルを構築することである。多言語翻訳モデルは、類似した言語間で情報を共有することで、リソースの少ない言語ペアに利益をもたらし、ゼロショット翻訳、つまりモデルが見たことのない言語への翻訳を可能にする。モデルのサイズが大きくなると、より大きなデータセットが必要となり、作成に手間がかかり、作成が困難になるため、英語のデータセットやモデリング技術に注目する研究者もいる(例えば、100の言語をサポートするには、1000億個の文対が必要となる)。しかし、データとモデリングにおけるこの偏りは、人々が翻訳をどのように利用しているかを反映しておらず、英語以外の翻訳のパフォーマンスの悪化につながっている。

対照的に、FacebookのM2M-100は、100の異なる言語にまたがる75億文以上のデータセットに基づいて学習された。M2M-100を構築するために、Facebookの研究者たちは、言語選択の指針となる3つの基準を決めた。彼らは、地理的に多様性があり、広く話されている異なる系列の言語を含むことを求めた。次に、モデルのパフォーマンスを定量化しやすくするために、評価データが存在する言語に絞り込んだ。最後に、残りの言語の中から、単言語データがない言語を除外した。

M2M-100は、1言語のデータから学習し、100言語でタスクを実行できるFacebookの多言語モデル、XLM-Rをベースにしている。7月には、Facebookは51の異なる言語をサポートする音声認識モデルを発表した。さらに最近では、多くの異なる言語からラベル付けされていないデータをタップして、言語をまたいだ文を採掘し、優れたモデルを訓練するCRISSについても詳細に説明している。

「何年も前から、AI研究者たちは、さまざまなタスクですべての言語を理解できる単一の普遍的なモデルを構築することに取り組んできた」と、Facebook AI Research Parisのデータサイエンティストであるアンジェラ・ファンはブログ記事で書いている。「すべての言語、方言、モダリティをサポートする単一のモデルは、私たちがより多くの人々にサービスを提供し、翻訳を最新の状態に保ち、何十億人もの人々のための新しい経験を均等に作成するのに役立つ」。

M2M-100のために、Facebookの研究者たちは、様々なソースから表向きは高品質のデータを採掘するために、新しい言語識別技術を採用した。1つは、自然言語処理モデルのゼロショット転送を行うオープンソースのツールキットであるLASER(Language-Agnostic Sentence Representations)だ。他の2つは、翻訳モデルを訓練するための「10億規模」のbitextデータセットであるCCMatrixと、言語横断的なウェブ文書ペアの大規模なコレクションであるCCAlignedだ。

Facebookの研究者は翻訳需要が統計的にまれであったペアを避け、言語が分類、地理学、および文化的類似性に基づいて14の家族にグループ化された「橋のマイニングの作戦」を導入した(アイスランド語・ネパール語またはシンハラ語・ジャワ語のような)。直感的には、同じグループに属する言語を持つ国に住む人々は、より頻繁にコミュニケーションを取り、より質の高い翻訳の恩恵を受けることができるだろうというものだった。例えば、ベンガル語、ヒンディー語、マラーティー語、ネパール語、タミル語、ウルドゥー語など、インドで話されている様々な言語を1つの家族に含めることができる。

異なる家族の言語を接続するには, Facebookの研究者は、「ブリッジ言語」の数が少ない、または各家族の1つから3つの主要な言語を特定した。例えば、ヒンディー語、ベンガル語、タミル語は、データセットのインド・アーリア語のブリッジ言語となった。次に、これらの架け橋言語のすべての可能な組み合わせについて学習データを掘り起こしたところ、前述の75億文のデータが得られた。

これは、ある言語でモデルをトレーニングし、それを使って単言語データを翻訳し、別の言語で合成された逆翻訳されたデータを作成する方法だ。例えば、中国語からフランス語への翻訳モデルを訓練することを目的とした場合、Facebookの研究者は、フランス語から中国語へのモデルを訓練し、単言語のフランス語データをすべて翻訳して中国語を作成する。M2M-100の開発の過程で、Facebookは採掘された言語に合成データを追加し、これまで見られなかった言語ペアのデータを作成した。

Facebookの研究者によると、M2M-100はモデルの並列性を利用して、現在のバイリンガルモデルよりも2桁大きいモデルをトレーニングすることができる。大規模なモデル学習のためのPyTorchツールであるFairscaleを使用して、モデルを何百枚ものグラフィックカードに分割し、同じデータで学習を行いました。M2M-100がパフォーマンスを落とさずにスケーリングできるようにするために、Facebookの研究者はモデルのパラメータ(予測に影響を与える変数、この文脈では翻訳)を言語の非重複グループに分割した。戦略のこのミックスは100の要因によってモデルの容量を増加させ、それはFacebookが主張しているものと言語を提供することが可能になった。

15.4億のパラメータで、Facebookは、追加のモデル容量を訓練するために最も多くのデータを持っていた高リソースの言語ペアのためのM2M-100で改善が見られたと述べています。「モデル容量の密なスケーリングと言語固有のパラメータ(合計30億個)を組み合わせることで、大規模なモデルの利点に加え、異なる言語に特化したレイヤーを学習する能力を提供する」とファンは書いている。

Facebookは、ネイティブスピーカーのグループに、英語を含まない20の言語ペア間の翻訳品質を評価させた。評価者は、翻訳の忠実さを比較的高く評価したが、M2M-100は、テキストの意味が失われたスラングで一字一句の翻訳を作成する傾向があることを指摘した。また、このモデルは、文中のコンマの欠落などの文法的な問題に影響を受けやすく、誤った解釈につながる可能性があることも判明した。

「多くの言語では、合理的な翻訳を確実に得ることができる前に、我々は実質的な改善を必要とする」とFacebookの研究者は、M2M-100を詳述した論文で認めた。「例としては、Xhosa語やZulu語などのアフリカの言語、カタロニア語やブルトン語などのヨーロッパの言語、イロコ語やセブアノ語などの東南アジアの言語などが挙げられる。これらの言語の多くは、インターネット上の単言語リソースでさえ限られており、トレーニングデータの量と質に大きな影響を与えている」。

言語モデルが訓練されたデータセットに存在するバイアスを増幅させて、バイアスのかかった表現で暗黙のうちに害を永続させているという十分な証拠がある。MIT、インテル、カナダのイニシアチブCIFARのAI研究者は、BERT、XLNet、OpenAIのGPT-2、およびRoBERTaから高レベルのバイアスを発見した。Allen Institute for AIの研究者は、現在の機械学習技術では有害な出力から十分に保護できるものはないと主張しており、より良いトレーニングセットとモデルアーキテクチャの必要性を強調している。これに加えて、Googleは、Google翻訳を支える翻訳モデル、特にトルコ語、フィンランド語、ペルシャ語、ハンガリー語のような資源の乏しい言語に関して、ジェンダー・バイアスの証拠を発見した(そして、それに対処したと主張している)。

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)