研究者が3,867のAI研究論文で「一貫性のない」ベンチマークを発見

AIや機械学習モデルのベンチマークに使用されるメトリクスは、それらのモデルの真のパフォーマンスを十分に反映していないことが多い、とウィーンのInstitute for Artificial Intelligence and Decision Supportの研究者によるプレプリント研究が主張しています。この研究はオープンソースのWebベースのプラットフォームPapers with Codeから3,000以上のモデルのパフォーマンス結果のデータを分析したものです。

研究者が3,867のAI研究論文で「一貫性のない」ベンチマークを発見

AIや機械学習モデルのベンチマークに使用されるメトリクスは、それらのモデルの真のパフォーマンスを十分に反映していないことが多い、とウィーンのInstitute for Artificial Intelligence and Decision Support(人工知能・意思決定支援研究所)の研究者によるプレプリント研究が主張しています。この研究はオープンソースのWebベースのプラットフォームPapers with Codeから3,000以上のモデルのパフォーマンス結果のデータを分析したものです。彼らは、代替的でより適切なメトリクスがベンチマークで使用されることはほとんどなく、メトリクスの報告は一貫性がなく特定性がなく、曖昧さにつながっていると主張しています。

ベンチマーキングは、AI研究の進歩の重要な推進力となっています。タスク(またはタスク)とそれに関連するメトリクスは、科学コミュニティが解決しようとしている問題の抽象化として認識することができます。ベンチマークデータセットは、モデルによって解決されるタスクの固定された代表サンプルとして概念化されています。しかし、機械翻訳、物体検出、質問応答など、さまざまなタスクをカバーするベンチマークが確立されていますが、論文の共著者は、精度(サンプル数の合計に対する正しく予測されたサンプルの比率)のように、パフォーマンスのある側面を強調しているものがある一方で、他の側面を犠牲にしていると主張しています。

研究者によると、分析したベンチマークデータセットの3分の2以上(77.2%)では、単一のパフォーマンス指標しか報告されていませんでした。ベンチマークデータセットのごく一部(14.4%)では、トップレベルのメトリクスが2つ、6%では3つのメトリクスが報告されていました。

研究者らは、「曲線下面積」を単に「AUC」として参照しているような、特定したメトリクスの報告に不規則性があることに注意しています。曲線下面積とは、精度とリコールを互いにプロットしているか(PR-AUC)、リコールと偽陽性率をプロットしているか(ROC-AUC)によって、異なる方法で解釈できる精度の尺度です。同様に、いくつかの論文では、どのバリアントが使用されたかを特定せずに、自然言語処理ベンチマークであるROUGEについて言及しています。ROUGEには精度を調整したサブバリアントとリコールを調整したサブバリアントがあり、リコールのサブバリアントの方が一般的ですが、これは論文間で結果を比較する際に曖昧さにつながる可能性があると研究者らは主張しています。

矛盾はさておき、調査対象となった論文で使用されているベンチマークの多くには問題があると研究者らは述べています。精度は、バイナリおよびマルチクラス分類器モデルを評価するためによく使用されますが、クラスごとのインスタンス数に大きな差があるアンバランスなコーパスを扱う場合には、有益な結果は得られません。分類器がすべてのケースで多数派クラスを予測する場合,精度は全ケース中の多数派クラスの割合に等しくなります。例えば、ある「クラスA」が全インスタンスの95%を占めている場合、「クラスA」を常に予測する分類器は95%の精度を持つことになります。

精度とリコールもまた、分類器によって正と予測されたインスタンス、または真の正(正確な予測)にのみ焦点を当てるという点で限界があります。どちらもネガティブなケースを正確に予測するモデルの能力を無視しています。Fスコアに関しては、精度とリコールを比較して重視することがあり、大多数のクラスを予測することに偏った分類器に誤解を招く結果を提供します。これに加えて、これらのモデルは1つのクラスにしか焦点を当てることができません。

自然言語処理の領域では、研究者らはBLEUやROUGEなどのベンチマークの問題点を強調しています。BLEUはリコールを考慮しておらず、機械翻訳の品質に関する人間の判断とは相関しておらず、ROUGEは、会議の議事録のように、多くの異なる話者がいる議事録の抽象的要約や抽出的要約のような、広範囲の言い換えに依存するタスクを適切にカバーしていません。

研究者らは、マシューズ相関係数やThe Fowlkes-Mallows 指標のような、精度やFスコアのメトリクスの欠点のいくつかに対処する、より優れた代替メトリクスが、分析したどの論文でも使用されていないことを発見しました。実際、「精度」というトップレベルの指標が報告されているベンチマークデータセットの83.1%では、他のトップレベルの指標は使用されておらず、60.9%のデータセットではF値が唯一の指標でした。これは自然言語処理メトリクスにも当てはまりました。タスク間で人間の判断と強く相関することが示されているMETEORは、わずか13回しか使用されていませんでした。また、生成されたテキストが「通常の」言語使用法にどれだけ適合しているかを評価することを目的としたGLEUは、わずか3回しか登場しませんでした。

研究者たちは、科学雑誌に掲載された論文ではなく、プレプリントを分析するという決定が、研究結果を歪めている可能性があることを認めています。しかし、現在AIベンチマークタスクを評価するために使用されているメトリクスの大半は、特に不均衡なデータセットで使用されている場合には、分類器のパフォーマンスを十分に反映していない可能性がある特性を持っているという結論を支持しています。問題のある特性に対処する代替のメトリクスが提案されていますが、ベンチマークタスクのパフォーマンスメトリクスとして適用されることはほとんどなく、代わりに歴史的に確立されたメトリクスの少数セットが使用されています。研究者らは、NLP特有のタスクは、言語とタスク特有の複雑さのために、メトリクス設計にさらなる課題を投げかけています。

ベンチマークでのパフォーマンスの向上よりも、AIの科学的進歩に焦点を当てることを求める学者が増えている。6月のインタビューで、Google Brainチームの元レジデントであるDenny Britzは、交絡変数が多すぎて、DeepMindやOpenAIのような大規模で資金力のある研究室が有利になるため、最先端を追いかけることは悪いことだと考えていると述べた。これとは別に、Zachary Lipton(カーネギーメロン大学の助教授)とJacob Steinhardt氏(カリフォルニア大学バークレー校の統計学部のメンバー)は、最近のメタ分析で、AI研究者がパフォーマンスではなく、アプローチの方法と理由に焦点を当て、研究の過程でエラー分析、アブレーション研究、ロバストネスチェックをより多く行うことを提案しています。

参考文献

  1. Kathrin Blagec et al. A critical analysis of metrics used for measuring progress in artificial intelligence. arXiv:2008.02577.

Photo by Charles Deluvio on Unsplash

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史
新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)