Google AI研究者ら、機械学習のデータセットには文化の変化が必要と主張

機械学習コミュニティ、特にコンピュータビジョンと言語処理の分野では、データセットの収集と利用において深刻な文化の問題を抱えている、と今月初めに発表された、Google ResearchのリサーチサイエンティストEmily Dentonらが共著した論文は主張している。

Google AI研究者ら、機械学習のデータセットには文化の変化が必要と主張

機械学習コミュニティ、特にコンピュータビジョンと言語処理の分野では、データセットの収集と利用において深刻な文化の問題を抱えている、と今月初めに発表された、Google ResearchのリサーチサイエンティストEmily DentonとAlex Hanna、ワシントン大学教授(計算言語学)のEmily Benderらが共著した論文は主張している。

この論文は、機械学習におけるデータの収集・利用方法について提起された多くの懸念事項の文献調査を行い、この分野の実践的・倫理的な問題のいくつかに対処するためには、データに対するより慎重で徹底した理解が必要であると提唱している。

データセットは、アルゴリズム開発と科学的進歩を制限する要因として見られてきた。また、ベンチマークデータセットは、機械学習コミュニティの目標、価値観、研究課題を方向付ける上で重要な役割を果たしてきた。近年、機械学習システムは、英語テキスト理解のためのGLUEベンチマークのようなベンチマークデータセットで評価された場合、「超人的」な性能を達成することが報告されている。

しかし、Benderらは「しかし、人間のような推論能力の意味のあるテストとして、そのようなデータセットの欠点が表面化した最近の研究は、このような進歩のように見えることが、いかに欠陥のある基礎に安住している可能性があるかを明らかにしている」と主張した。

専門家ではないクラウドワーカーへの依存度が高まるとともに、ウェブからますます大量のデータを自由に収集する方向へと向かうことは、機械学習にとっての恩恵とみなされたが、これらのデータ手法は、データセットの生成に関わる人間の労働、主観的な判断やバイアス、偶発的な文脈を抽象化する傾向がある。「巨大なスケールは、一般性と客観性にとって有益であると神話化されてきたが、すべてのデータセットには限界とバイアスがある」とBenderらは記述している。

著者らは文献調査を通じて、顔認識データセット内で、肌の色の濃い被験者の過少表現が確認されていることや物体認識データセット内の画像は圧倒的に欧米諸国からのものであることを指摘した研究など多数の論文を引用している。

共著者のEmily BenderはGoogleがTimnit Gebruを解雇した際にその発端となったと考えられる論文の草稿の共同執筆者であり、彼女はその草稿をいくつかのメディアに提供し、Google AIで起きたことを外に知らしめるのに貢献した。その論文は、大規模な言語モデルの社会への負の影響を検討したもので、2020年12月末、フェアネス、アカウンタビリティ、トランスペアレンシー(FAccT)カンファレンスの主催者が出版を承認している。

また同じく12月末には、共著者のHannaはGoogleの倫理的AIチームの同僚と一緒に、Gebruの復職を要求するメモをGoogleの経営陣に送った。同日、アルゴリズム・バイアスに関心のある議員たちは、Googleのスンダル・ピチャイ最高経営責任者(CEO)にGebruの解雇を巡る状況について説明を求める書簡を送っている。

GoogleのAI倫理研究者解雇は「不都合な真実」を隠蔽するためか
GoogleがAI倫理学者Timnit Gebruを解雇したとされる係争で、Gebruらが執筆した大規模言語モデルのリスクを指摘する論文がその発端となったと彼女は主張している。論文はモデルが適用されているGoogleの検索やクラウド製品、また、Transformer、BERT等のAI研究チームの主要な業績に疑問を投げかけるものであり、Googleがビジネス上の利益を倫理に対して優先したかという疑問に回答しないといけない。
Google AI倫理チームの共同リーダー、AIのバイアスを強調する論文を投稿したため解雇されたと主張
有名なAI倫理研究者の一人であり、GoogleのAI倫理チームの共同リーダーでもあるティムニット・ゲブル(Timnit Gebru)は、GoogleのAIのバイアスを強調する論文を執筆したせいで解雇されたと主張した。Google AI側は辞意を受理したと反論しており、双方の主張が食い違っている。

参考文献

  1. Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily Denton, Alex Hanna. Data and its (dis)contents: A survey of dataset development and use in machine learning research. arXiv:2012.05345 [cs.LG]

Photo: "The future of computer vision with the TensorFlow Object Detection API from Google. You won't have to describe any photo...."by ShashiBellamkonda is licensed under CC BY 2.0

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史
新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)