MITの研究者は、よく知られているImageNetデータセットには「系統的なアノテーションの問題」があり、ベンチマークデータセットとして使用した場合には、根拠となる真実や直接観測との間にずれが生じると結論付けています。

「我々の分析では、ノイズの多いデータ収集パイプラインが、結果として得られるベンチマークと、それがプロキシとしての役割を果たす実世界のタスクとの間で、どのようにして系統的なズレを引き起こしうるかを明確に示しています」。“From ImageNet to Image Classification: Contextualizing Progress on Benchmarks.”と題された論文には、次のように書かれています。「我々は、スケーラブルでありながら、より正確な真実を捉えるアノテーションパイプラインを開発することが、今後の研究の重要な道であると考えています」。

スタンフォード大学ビジョンラボが2009年のコンピュータビジョンとパターン認識の会議(CVPR)でImageNet発表したとき、それまでに存在していた多くの画像データセットよりもはるかに大規模なデータセットでした。ImageNetのデータセットには数百万枚の写真が含まれており、2年以上の歳月をかけて作成されました。ImageNetは、データラベルにWordNet階層を使用しており、物体認識モデルのベンチマークとして広く利用されています。2017年までは、ImageNetを用いた年次大会もコンピュータビジョンの分野を前進させる役割を果たしていました。

しかし、ImageNetの「ベンチマークタスクのズレ」を綿密に調べた結果、MITのチームは、ImageNetの写真の約20%に複数のオブジェクトが含まれていることを発見した、と主張しています。複数のオブジェクト認識モデルを分析した結果、写真に複数のオブジェクトが含まれていると、一般的な精度が10%低下することが判明しました。これらの問題の核心は、ImageNetのような大規模な画像データセットを作成するために使用されるデータ収集パイプラインにあると著者らは述べています。

共著者でMITの博士号候補者であるShibani Santurkarは、国際機械学習会議(ICML)での発表で次のように述べています。「全体的に、このパイプラインは、単一のImageNetラベルだけでは必ずしもImageNet画像の内容を捉えるのに十分ではない可能性があることを示唆しています」

「このように、これは、モデルに実行を促す特徴の面でも、その性能をどのように評価するかの面でも、ImageNetベンチマークと実世界の物体認識タスクとの間にミスアライメントを引き起こす可能性があります」。

研究者によると、大規模な画像データセットの理想的なアプローチは、世界の個々のオブジェクトの画像を収集し、専門家に正確なカテゴリでラベル付けをしてもらうことですが、それは安価ではありませんし、スケールするのも簡単ではありません。そこでImageNetは、検索エンジンやFlickrなどのサイトから画像を収集しました。インターネットの検索エンジンから切り取った画像は、AmazonのMechanical Turkのアノテーターによってレビューされました。研究者らは、ImageNetの写真にラベルを付けるMechanical Turkの従業員は、1つのオブジェクトに焦点を当て、他のオブジェクトやオクルージョンを無視するように指示されていたことに注目しています。研究者によると、他の大規模な画像データセットでも、同様の、そして潜在的に問題のあるパイプラインに従っているとのことです。

ImageNetを評価するために、研究者らはパイプラインを作成し、人間のデータラベラーに複数のラベルから写真に最も関連性の高いものを選ぶように依頼しました。次に、最も頻繁に選択されたラベルを使用してモデルを訓練し、研究者が「絶対的な真実」と呼んでいるものを決定しました。

「我々が活用している重要なアイデアは、モデルの予測を使用して実際にImageNetのラベルを補強することです。具体的には、さまざまなモデルを用いて、その上位5つの予測を集約して、候補となるラベルのセットを作成します」とSanturkarは述べています。「そして、実際に人間のアノテータを使ってこれらのラベルの妥当性を判断しますが、1つのラベルが妥当かどうかを問うのではなく、複数のラベルに対して独立してこのプロセスを繰り返します。これにより、1つの画像に関連する可能性のあるラベルのセットを決定することができます」とSanturkarは述べています。

しかし、研究チームは、専門家ではないデータラベラーも使用しているため、彼らのアプローチが完全に一致していないことに注意を促しています。研究チームは、専門家ではない人間の注釈者が画像に正確なラベリングを行うのは難しい場合があると結論付けています。例えば、24種類のテリアの中から1つを選ぶのは、犬の専門家でない限り難しいかもしれません。

同チームの論文は、5月下旬に当初発表された後、今週のICMLでの発表に向けて受理された。今回の学会での論文発表は、MITが8000万枚のタイニーイメージズのデータセットをインターネットから削除し、データセットのコピーを持っている研究者に削除を依頼するという決定を下したことに続いて行われたものだ。これらの措置は、研究者がデータセットに含まれるNワードのような攻撃的なラベルや、女性に対する性差別用語、その他の軽蔑的なラベルに注意を喚起した後に取られました。2006年に公開された「8000万人の小さな画像」データセットを監査した研究者は、これらのラベルはWordNetの階層構造の結果として組み込まれたものであると結論づけた。

ImageNetはWordNet階層も使用しており、ACMのFaccTカンファレンスで発表された論文では、ImageNetの作成者は、データセットのpersonサブツリーの約2,800のカテゴリを実質的にすべて削除する計画であると述べています。また、画像の多様性の欠如など、データセットの他の問題点も指摘しています。

モデルの訓練やベンチマークに使用される大規模な画像データセット以外にも、大規模なテキストデータセットの欠点は、今月初めに開催されたAssociation of Computational Linguistics (ACL)の会議でも重要なテーマとなっていました。

参考文献

  1. Dimitris Tsipras, Shibani Santurkar, Logan Engstrom, Andrew Ilyas, Aleksander Madry. From ImageNet to Image Classification: Contextualizing Progress on Benchmarks. arXiv:2005.11295. Submitted on 22 May 2020

Image via imagenet.org