Facebook AI、Transformerを物体検出モデルに適用

要点

Facebook AI Research（FAIR）の6人のメンバーは、Transformerニューラルネットワークアーキテクチャを利用して、エンドツーエンドの物体検出AIを作成した。DETR（Detection Transformer）と名付けられたこのモデルは、1回のパスで画像内の物体を一度に認識することができる。

DETRは、Transformerアーキテクチャを検出パイプラインの中心的なビルディングブロックとしてうまく統合した最初の物体検出フレームワークである、とFAIRはブログ記事で述べている。著者らは、トランスフォーマーは、近年の自然言語処理のようにコンピュータビジョンに革命を起こしたり、NLPとコンピュータビジョンの間のギャップを埋めることができると付け加えている。

「DETR は、共通のCNNとTransformerアーキテクチャを組み合わせることで、最終的な検出器のセットを（並列に）直接予測します」と、FAIRの研究チームの論文は記述している。「この新しいモデルは概念的にシンプルで、他の多くの最新の検出器とは異なり、専用のライブラリを必要としません」

DETRの概略図 Source: https://github.com/facebookresearch/detr?fbclid=IwAR3AEEoJlZMh0_bhQA-zietXNqYtOWKQcth3m44X-E5GeFLgRGjI6FlvlII

従来のコンピュータビジョン技術とは異なり、DETR は物体検出を直接集合予測問題としてアプローチする。DETR は、二部一致を介して一意の予測を強制するセットベースのグローバルロスと、トランスエンコーダー/デコーダーアーキテクチャで構成されている。DETR は、学習されたオブジェクトクエリの固定された小さなセットが与えられると、オブジェクトとグローバル画像コンテキストの関係を考慮して、最終的な予測セットを並列に直接出力する。このような並列性により、DETR は非常に高速で効率的だ。

2017年にGoogleの研究者によって作成されたTransformerネットワークアーキテクチャは、当初は機械翻訳を改善するための方法として意図されていたが、GoogleのBERTやFacebookのRoBERTaなど、最も人気のある事前学習型の最先端言語モデルのいくつかを作るための機械学習の礎となるまでに成長した。VentureBeatとの対談で、Google AIチーフのJeff Dean氏をはじめとするAIの著名人は、トランスフォーマーベースの言語モデルは、2020年も続くと予想する2019年の主要なトレンドであると宣言した。

Trasnformerはリカレント・ニューラル・ネットワークの代わりに注目関数を使用して、シーケンスの次に来るものを予測する。物体検出に適用すると、Trasnformerは、空間アンカーやカスタマイズされたレイヤーを作成する必要があるなど、モデルを構築するためのステップを省くことができる。

arXivによると、DETRは、Microsoft Researchが主に作成した物体検出モデルで、2015年に導入されて以来、約1万件の引用を獲得しているFaster R-CNNに匹敵する結果を達成しているという。DETRの研究者は、COCOの物体検出データセットと、パノプティックセグメンテーションに関連する他のデータセットを使用して実験を行った。

著者らが遭遇したとしている 1 つの大きな問題点がある。DETR は小さな物体よりも大きな物体に有効である。「現在の検出器では、同様の問題に対処するために数年間の改良が必要であり、今後の研究で DETR のためにこれらの問題を解決できることを期待しています」と著者らは書いている。

DETRは、コンピュータビジョンの課題を解決するために言語モデルのソリューションに注目したFacebookの最新のAIイニシアチブ。2020年5月初め、Facebookは、ミームに含まれる画像とそれに付随するテキストがFacebookのポリシーに違反している場合に認識できるマルチモーダルAIの作成を支持するために、Hateful Memeのデータセットとチャレンジを導入した。関連ニュースとして、今週初め、ウォール・ストリート・ジャーナルは、Facebookのレコメンデーション・アルゴリズムが「人間の脳の分裂性への魅力を悪用している」と2018年に内部調査で結論が出たと報じたが、経営陣はその分析をほとんど無視していた。

Photo by Facebook AI Research（FAIR）