DeepMind研究者「英語以外で自然言語処理の研究を行うべき」

DeepMindの研究者であるSebastian Ruderが「英語以外の言語で自然言語処理の研究を行なうべき理由」というブログ記事を投稿した。世界中で7000以上の言語が話されているが、NLPの研究ではほとんどが英語に焦点を当てている。Ruderは、この文脈の中で、なぜ英語以外の言語に取り組むべきなのかを概説した。

DeepMind研究者「英語以外で自然言語処理の研究を行うべき」

要点

DeepMindの研究者であるSebastian Ruderが「英語以外の言語で自然言語処理の研究を行なうべき理由」("Why You Should Do NLP Beyond English")というブログ記事を投稿した。世界中で7000以上の言語が話されているが、NLPの研究ではほとんどが英語に焦点を当てている。Ruderは、この文脈の中で、なぜ英語以外の言語に取り組むべきなのかを概説した。

ここ数年、自然言語処理の多くのタスクでエキサイティングな進歩が見られたが、そのような成果のほとんどは、英語とその他の少数の高リソース言語のセットで達成されている。

社会的な視点

Ruderは、どの言語を話すかによって、情報へのアクセスや教育、さらには人と人とのつながりが決まる、ことを問題視している。「インターネットは誰にでも開かれていると思っていても、支配的な言語(主に欧米諸国の言語)とそれ以外の言語との間には、デジタル言語の隔たりがある。ウェブ上で表現されている言語はわずか数百の言語に過ぎず、少数言語の話者は利用できる情報が著しく制限されている」。

「技術的な包摂の欠如が続くことは、言語格差を悪化させるだけでなく、サポートされていない言語や方言の話者を、より技術的にサポートされているリソースの高い言語に駆り立て、そのような言語の多様性をさらに危険にさらす可能性がある。英語以外の言語の話者が取り残されないようにすると同時に、既存の不均衡を相殺して言語と識字率の障壁を下げるためには、我々のモデルを英語以外の言語にも適用する必要がある」。

言語学的な視点

計算言語学者は言語理解の方法を開発してきたが、それは一般的に英語という単一の言語にしか適用されていない。「英語をはじめとする少数の高資源言語(高品質なデータセットが存在する言語)は、多くの点で世界の他の言語を代表するものではありません。多くの資源に富む言語の多くはインド・ヨーロッパ語族に属し、ほとんどが西欧世界で話されており、形態学的に貧弱である。すなわち、情報はほとんどが構文的に表現されており、例えば、単語レベルでのバリエーションよりも、固定された語順や複数の別々の単語を使用している」とRuderは説明する。

より全体的に見るには、異なる言語の類型論的特徴を見ないといけない。「『World Atlas of Language Structure』には、192の類型論的特徴、すなわち言語の構造的・意味的特性がカタログ化されている。例えば、ある言語における主語、目的語、動詞の典型的な順序を記述した類型論的特徴がある。各特徴は平均して5.93のカテゴリを持っている」。

特徴カテゴリは、言語所属するグループによって大いに分散がある。このようなタイプ別特徴の大規模なサブセットを無視すると、我々のNLPモデルは一般化に役立つ貴重な情報を見逃してしまう可能性がある、とRuderは指摘している。

「英語以外の言語を扱うことは、世界の言語間の関係についての新しい知識を得るのに役立つかもしれない(Artetxe et al., 2020)。逆に、自分たちのモデルがどのような言語的特徴を捉えることができるのかを明らかにするのに役立つかもしれない。具体的には、特定の言語についての知識を使って、例えば、ダイアクリティックの使用、広範な複合語、抑揚、派生、重複、凝集、融合など、英語とは異なる側面を探ることができるかもしれない」。

機械学習の視点

我々のモデルは一般的であることを意図しているにもかかわらず、その帰納的バイアスの多くは英語とそれに類似した言語に固有のものだ。

Ruderは様々な先行研究に触れ、英語固有のバイアスを例証する。「同様に、ニューラルモデルは、形態素が豊富な言語の複雑さを見落としていることが多い (Tsarfaty et al., 2020)。サブワードのトークン化は重複を伴う言語ではうまくいかない(Vania and Lopez, 2017)。バイトペアのエンコーディングは形態素とうまく整合せず(Bostrom and Durrett, 2020)、より大きな語彙数を持つ言語は言語モデルにとってより困難である。文法、語順、構文の違いもまた、ニューラルモデルにとって問題となる (Ravfogel et al., 2018; Ahmad et al., 2019; Hu et al., 2020)。さらに、我々は一般的に、事前に訓練された埋め込みがすべての関連情報を容易に符号化すると仮定しているが、これはすべての言語に当てはまるわけではないかもしれない (Tsarfaty et al., 2020)」

計算言語学者が提案する最近のモデルは、その過程で、英語データの特性や条件に合わせてオーバーフィットしてきた。特に、データセットの多い言語に焦点を当てることで、大量のラベル付きデータとラベルなしデータが利用可能な場合にのみ有効な手法を優先してきた。

「**対照的に、現在の手法のほとんどは、世界のほとんどの言語に共通するデータの乏しい条件に適用された場合にうまくいかない。**下流のタスクのサンプルの複雑さを劇的に減少させる事前学習言語モデルの最近の進歩(Petersら、2018; Howard and Ruder、2018; Devlinら、2019; Clarkら、2020)でさえ、世界のほとんどの言語では利用できない大量のクリーンでラベル付けされていないデータを必要とする(Artetxeら、2020)。このように、少ないデータで良好な結果を得ることは、現在のモデルの限界をテストするための理想的な環境であり、リソースの少ない言語での評価は、おそらく最もインパクトのある実世界での応用を構成している」。

文化的・規範的視点

言語モデルが訓練されたデータからは、特定の言語の特徴だけでなく、文化的規範や常識的な知識も明らかになる。

しかし、そのような常識的知識は文化によって異なるかもしれない。例えば、「無料」と「無料でない」の概念は文化の違いによって異なり、「無料」とは、レストランの塩のように、誰もが許可を求めずに使用することができるものだ。タブーとされる話題も文化によって異なる。さらに、文化によって、相対的な力や社会的な距離の評価も異なる (Thomas, 1983)。さらに、データセットに含まれるような実世界の状況の多くは、多くの人の直接の経験とは一致せず、また、世界の多くの人にとって明らかな背景知識となっている重要な状況を反映していない(Ponti et al., 2020)。

「その結果、主に欧米を起源とする英語データにしか接していなかったエージェントは、欧米諸国の話者とはそれなりの会話ができるかもしれないが、異文化の人との会話は実用上の失敗につながる可能性がある」。

「文化的な規範や常識的な知識を超えて、私たちがモデルを訓練するデータには、その根底にある社会の価値観が反映されている。NLPの研究者や実践者として、私たちは自分のNLPシステムが特定の国や言語コミュニティの価値観を独占的に共有することを望むかどうかを自問自答しなければならない」

「この判断は、テキスト分類のような単純なタスクを主に扱う現在のシステムではあまり重要ではないかもしれませんが、システムがよりインテリジェントになり、複雑な意思決定タスクを扱う必要があるようになればなるほど重要になってくるでしょう」。

認知の視点

Ruderは、モデルは最終的に、どの言語の構造にも固有ではなく、異なる特性を持つ言語にも一般化できる抽象化を学習できるようにならなければならない、と主張する。

人間の子供はどんな自然言語も習得することができ、その言語理解能力はあらゆる種類の言語間で驚くほど一貫している。人間レベルの言語理解を達成するためには、我々のモデルは、異なる言語族や類型の言語間で同じレベルの一貫性を示すことができなければならない。

計算言語学者ができること

  • データセット:新しいデータセットを作成する場合は、アノテーション予算の半分を別の言語で同じサイズのデータセットを作成するために確保してください。
  • 評価:特定のタスクに興味がある場合は、別の言語で同じタスクでモデルを評価することを検討してください。いくつかのタスクの概要については、NLP ProgressやXTREMEベンチマークを参照してください。
  • Bender Rule:あなたが取り組んでいる言語を記述してください。
  • 前提条件:モデルが使用するシグナルと、モデルが行う前提条件を明確にしてください。あなたが研究している言語に特有のものと、より一般的なものを考慮してください。
  • 言語の多様性:研究している言語のサンプルの言語の多様性を推定してください (Ponti et al., 2020)。
  • 研究:資源の少ない言語の課題に取り組む方法に取り組む。

Photo by Cherry Lin on Unsplash

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史
新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)