Facebookの特命チームが画像検出AIをハッキング

要点

Facebookはポルノ画像分類器などを騙す手法を防ぐため、自社のAIシステムのクラックを実行する「レッドチーム」を組織。彼らは自ら発見した攻撃手法を基に新しい防御手段を提案する。彼らは選挙を控え、分類機をかいくぐるフェイクニュースを最小化する取り組みを始めている。


インスタグラムは10億人ほどのユーザーが、写真にフィルターを追加してよりシェアしやすい写真にすることを奨励している。2019年2月、一部のインスタグラムユーザーは、自動化されたポルノフィルターを通過するよう写真を編集するようし始めた。

Facebookは人工知能を搭載したモデレーションに大きく依存しており、この技術は露骨なコンテンツを見抜くのに特に優れているという。しかし、一部のユーザーは、グリッドやドットのようなパターンをルール違反の肌の表示に重ねることで、Instagramのフィルターをこっそりと通過できることを発見した。これは、Facebookの人間のコンテンツ審査担当者の仕事が増えることを意味していた。一日中、スクリーンの前に張り付いて、AIの仕事を代行する彼らはゴーストワーカーとも呼ばれている。

FacebookのAIエンジニアは、パターンで禁止されている画像を認識するようにシステムをトレーニングすることでポルノの氾濫に対応したが、修正は長続きしなかった。ユーザーは異なるパターンを採用することによって適応し始めたからだ。「レッドチーム」は最終的に、写真のグリッドのようなパターンをチェックし、近くのピクセルをエミュレートすることでそれらを編集しようとする別の機械学習システムを追加することで、AIが裸体を回避するという問題を手なずけることができた。このプロセスでは元の写真を完全に再現することはできないが、ポルノ分類器がつまづくことなく仕事をこなすことができるようになる。

この事件をきっかけに、Facebookは数ヶ月後、自社のAIシステムの脆弱性や盲点をよりよく理解するために「AIレッドチーム」を設立した。マイクロソフトや政府の請負業者など、他の大企業や組織も同様のチームを結成している。

これらの企業は、画像やテキストの内容を理解するなどのタスクのためのAIシステムを展開するために、近年多額の費用を費やしている。今、一部のアーリーアダプターは、これらのシステムがどのように騙されてしまうのか、そしてどのように保護するのかを苦悩している。自動化されたシステムが故障したり、大規模に改ざんされたりしたら、それは大きな問題だからだ。

AIシステムを保護する作業は、従来のコンピュータセキュリティと類似している。FacebookのAIレッドチームの名前は、組織のために働くハッカーが攻撃者としてロールプレイをすることで、組織の防御を探る演習の用語に由来している。彼らは、敵が新たな仕掛けや攻撃を仕掛けてくることで、自分たちが展開した修正が回避される可能性があることを知っている。

しかし、他の点では、AIシステムへの攻撃を緩和することは、従来のハッキングを防ぐこととは大きく異なる。防御者が心配する脆弱性は、特定の修正可能なバグである可能性は低く、今日のAI技術に組み込まれた制限を反映している可能性が高い。

AIセキュリティへの投資が拡大しているのは、FacebookやGoogleなどがAIを配備することの倫理的な結果についても厳しく考えていることを反映している。どちらの問題も、その有用性にもかかわらず、既存のAI技術は狭くて柔軟性がなく、人間のように不測の事態に適応できないという事実に根ざしている。

機械学習に関する研究論文のライブラリーは増え続けており、写真のわずか数ピクセルを変更してAIソフトウェアに幻覚を起こさせたり、存在しない物体を検出したりするようなトリック文書化している。ある研究では、Googleの画像認識サービスを騙してライフルをヘリコプターと分類させることができた。別の研究では、多面的な形状の物体を3Dプリントして、中国のBaidu社が開発した自動運転車のプロトタイプのライダー・ソフトウェアには見えないようにした。このほかにも、機械学習アルゴリズムの訓練に使用されるデータを改ざんしてパフォーマンスを低下させる「データポイズニング」などの攻撃もある。

FacebookのAIレッドチームを率いるのは、2017年に入社し、画像のモデレーションフィルターに取り組むグループを運営していたコンピュータビジョンの専門家、クリスティアン・カントンだ。カントンは、児童ポルノや暴力などの禁止コンテンツを検出するAIシステムのチームの仕事に誇りを持っていたが、実際にどれだけ堅牢なものなのか疑問に思うようになったという。

2018年、カントンは「リスク・ア・ソン」を企画し、Facebook全体の人々が3日間かけて、それらのシステムを最も印象的にトリップさせる方法を見つけようと競い合った。いくつかのチームは、同社がAIシステムをより強固なものにする必要があると確信したとカントンが言う脆弱性を発見した。

コンテストに参加したあるチームは、投稿内で異なる言語を使用することで、Facebookの自動化された嫌悪語フィルタを混乱させることを示した。2つ目は、2019年初頭にInstagramでポルノを拡散するために使用された攻撃を発見したが、その時点では修正することは当面の優先事項とは考えられていなかった。

この1年、カントンのチームはFacebookのモデレーションシステムを調査した。また、社内の別の研究チームと協力して、WWと呼ばれるFacebookの模擬版を作り、悪質な行動を安全に研究するための仮想的な遊び場として使用できるようにした。あるプロジェクトでは、レクリエーション用麻薬などのソーシャルネットワーク上で禁止されている商品を提供する投稿の循環を調べている。

レッドチームの最も重たいプロジェクトは、ディープフェイク(カメラで撮影したように見えるAIを使って生成された画像)の理解を深めることを目的としている。この結果から、AIのだまし討ちを防ぐことは簡単ではないことがわかった。

ディープフェイク技術は入手しやすくなり、標的型ハラスメントにも利用されるようになってきた。カントンのグループが昨年結成されたとき、研究者たちはディープフェイクを自動的にフィルタリングする方法についてのアイデアを発表し始めていた。しかし、彼はいくつかの結果が怪しいことに気づいた。

フェイスブックのAIレッドチームは、AIが生成した動画の検出の進歩に拍車をかけるために、「ディープフェイク検出チャレンジ」と呼ばれるプロジェクトを立ち上げた。このプロジェクトでは、性別、肌の色、年齢など様々な特徴を持つ動画に出演してもらうために、4000人の俳優に報酬を支払った。

先月発表された最高のアルゴリズムは、制限時間の65パーセント内で、Facebookのコレクションではないディープフェイクを見つけることができた。それはFacebookが確実にすぐにディープフェイクを検出することができそうにないことを示唆している。

カントンのチームは現在、Facebookの誤情報検出器と政治広告分類器の堅牢性を検証している。

マイクロソフトは昨年秋、ハーバード大学との提携により開発されたAIセキュリティに関する文書を公開した。この文書では、攻撃者がAIサービスに繰り返しクエリを送り、そのレスポンスを使って同様の動作をするコピーを作成する「モデル盗用」などの脅威について説明している。この「盗まれた」コピーは、直接利用されるか、攻撃者が元の有料サービスを操作できるようにする欠陥を発見するために利用される。

例えば、文書は、ソフトウェア開発者、セキュリティインシデント対応者、弁護士、政策立案者が、この問題を語るための共通の言葉を身につける必要がある、と指摘している。他にも、エンジニアが既存のソフトウェア開発やセキュリティプラクティスの上に構築し、それに統合するための共通のプラットフォームの必要性や、政策立案者や弁護士の間では,これらの攻撃を記述するための共通の語彙が必要性を指摘している。

Photo by Facebook