要点

FacebookはAIを利用して、AIが生成した偽物を撃退しようとしている。加工を加えられた動画を見分けるためにAIを訓練するために、過去最大規模のディープフェイクのデータセットを公開した。3,426人の俳優と既存の顔の入れ替え技術を使って作成された10万以上の写真クリップである。

急増するディープフェイクと検出の必要性

ディープフェイクを作るためのツールが広く利用できるようになり、比較的簡単に利用できるようになったことで、多くの人が危険な誤報を広めるために使われるのではないかと心配している。例えば、政治家は他人の言葉を自分の口に入れられたり、自分が参加していない状況に参加させられたりすることがある。

人間の目には、ディープフェイクはまだ比較的簡単に見破られるというのが真実だ。そして、サイバーセキュリティ企業であるDeepTrace Labsが2019年10月に発表した報告書によると、現在でも最も包括的な報告書であり、いかなるフェイクニュースキャンペーンにも使用されていない。それでも同じ報告書によると、オンラインに投稿されたディープフェイクの数は急速に増えており、過去7カ月間で約15,000件が登場していたという。その数は今でははるかに多くなっているだろう。

Facebookは、ディープフェイクがすぐに自分たちのサイトに氾濫することを懸念している。しかし、それらを自動的に検出するのは難しい。この問題に対処するために、FacebookはAIを利用して、AIが生成した偽物を撃退しようとしている。加工を加えられた動画を見分けるためにAIを訓練するために、過去最大規模のディープフェイクのデータセットを公開した。3,426人の俳優と既存の顔の入れ替え技術を使って作成された10万以上の写真クリップである。

Facebookはまた、2,114人の参加者がデータセット上で訓練された約35,000のモデルを提出した「ディープフェイク検出チャレンジ」の優勝者を発表しました。最優秀モデルは、マッピング会社Mapboxの機械学習エンジニアであるSelim Seferbekovによって開発されたもので、Facebookによって生成された新しい動画とインターネットから取得した既存の動画を含む、これまでに見たことのない10,000個のクリップのセットでテストを行ったところ、65%の精度で動画がディープフェイクであるかどうかを検出することができた。

トレーニングセットとテストセットには、メイクアップのチュートリアルを行う人など、検出システムが混乱する可能性のある動画や、スピーカーの顔の上にテキストや図形を貼り付けたり、解像度や向きを変えたり、速度を落としたりすることで微調整された動画が含まれている。

ディープフェイク生成プロセスによって残されたビデオのピクセルにあるデジタル指紋を探すようなフォレンジック技術を学習するのではなく、上位5つのエントリーは、人間が行うかもしれないように、何かが「ずれている」と思われるときに見分けることを学習したようです。

これを行うために、受賞者はすべて、昨年Googleの研究者によって開発されたEfficientNetsと呼ばれる新しいタイプの畳み込みニューラルネットワーク(CNN)を使用しています。CNNは画像解析によく使われており、顔の検出や物体の認識に長けている。しかし、あるポイントを超えて精度を向上させるには、その場限りの微調整が必要になることがある。

2019年5月にGoogle Brainから発表された画像認識モデルEfficientNetsは、より構造化された調整方法を提供し、より精度の高いモデルの開発を容易にする。

Facebookは、受賞したモデルをサイトで使用する予定はない。一つには、65%の精度はまだ十分に有用ではないということです。いくつかのモデルは、トレーニングデータで80%以上の精度を達成したが、これは未見のクリップと対戦したときに低下した。Seferbekov氏は、異なる技術を使って入れ替えられた異なる顔を含む新しいビデオに一般化することが、この課題の最も難しい部分だと言います。

Facebookは、文脈や出自を評価するなど、画像や動画そのものの分析を超えた技術を使うことで、ディープフェイクの検出も改善される可能性があると示唆している。

参考文献

  1. Mingxing Tan, Quoc V. Le. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. arXiv:1905.11946.
  2. Omiita. 2019年最強の画像認識モデルEfficientNet解説

Image via Facebook AI