高精度のディープフェイク識別器を開発: スタンフォード大学とカリフォルニア大学バークレー校

スタンフォード大学教授のManeesh Agrawalaらのグループは、リップシンク技術を利用したディープフェイクの検出ツールを開発。基本的な考え方は、「口の形」と「音素」の間に矛盾がないかどうかを調べることだ。

高精度のディープフェイク識別器を開発: スタンフォード大学とカリフォルニア大学バークレー校

1年前、スタンフォード大学教授(コンピュータ科学)のManeesh Agrawalaは、ビデオ編集者が話し手の言葉をほとんど気づかれずに修正できるリップシンク(口唇同期)技術の開発に協力した。このツールは、人が言ったことのない単語をシームレスに挿入したり、文の途中でも発言した単語を削除したりすることができる。肉眼では、そして多くのコンピュータベースのシステムでさえ、何も問題がないように見える。

Agrawalaらは、音声・映像の流れをシームレス(ジャンプカットなし)に保ちつつ、話者の対話内容を変更したリアルな出力映像を生成するために、音声・映像のトランスクリプトに基づいて話頭映像を編集する新しい手法を提案した。

このツールのおかげで、シーン全体を撮り直すことなく不具合を修正したり、テレビ番組や映画をさまざまな場所でさまざまな観客に合わせて調整したりすることがはるかに簡単になった。その手法は、入力されたトーキングヘッドビデオに、フレームごとに、音素、ビセーム(特定の音を説明するために使用できる一般的な顔のイメージ)、3D顔のポーズとジオメトリ、反射率、表情、シーン照明などのアノテーションを自動的に付与することだった。

「ビデオを編集するためには、ユーザはトランスクリプトを編集するだけでよくなった。最適化戦略が入力コーパスのセグメントをベース素材として選択し、選択したセグメントに対応するアノテーションされたパラメータはシームレスにつなぎ合わされ、顔の下半分がパラメトリックな顔モデルでレンダリングされる中間的なビデオ表現を生成するために使用される」と論文は説明している。

しかし、この技術は、期せずして、より精巧なディープフェイク動画の心配の種を生み出した。 例えば、最近、共和党下院議員スティーブ・スカリスがソーシャルメディアで共有したビデオでは、ジョー・バイデン副大統領とのインタビューに捏造を加えるもっとひどいテクニックを使っていた。

これらの悪用を防ぐため、Agrawalaを含むスタンフォード大学とカリフォルニア大学バークレー校の研究者はこのたび、リップシンク技術を検出するためのAIベースのアプローチを発表した。この新しいプログラムは、人が発する音と口の形の間の微細なミスマッチを認識することで、80パーセント以上の偽物を正確に見分けることができる。

ディープフェイクの仕組み

ビデオの内容の操作には正当なものもある。例えば、架空のテレビ番組や映画、CMなどを制作している人なら誰でも、デジタルツールを使ってミスを修正したり、台本を微調整したりすることで、時間とコストを節約することができる。しかし問題は、これらのツールが意図的に誤った情報を広めるために使用された場合だ。そして、そのテクニックの多くは、一般の視聴者には見えないものだ。

多くのディープフェイクビデオは、文字通り、他人のビデオに一人の人物の顔をスーパーインポーズ(画像の重ね合わせ)する「フェイススワッピング」に頼っている。しかし、顔の入れ替えツールは説得力があるが、比較的粗雑なもので、通常はコンピュータが検出できるような痕跡を残す。

一方、リップシンク技術は、より微妙なので、見破るのが難しい。この技術では、画像のはるかに小さな部分を操作して、特定の言葉を言ったときに実際に口が動いたであろう人の口の動きと密接に一致する唇の動きを合成する。Agrawalaによると、人物のイメージと声のサンプルが十分にあれば、ディープフェイクのプロデューサーは、人物に何でも「言わせる」ことができるという。

偽物を見分ける

このような技術の非倫理的な使用を心配して、Agrawalaはスタンフォード大学の博士研究員Ohad Fried、カリフォルニア大学バークレー校情報学部の教授Hany Farid、バークレー校の博士課程の学生Shruti Agarwalと共同で検出ツールを開発した。

基本的な考え方は、「口の形」と「音素」の間に矛盾がないかどうかを調べることだ。具体的には、「B」、「M」、「P」の音を出すときの人の口の形を見てみた。研究者は最初、人間の観察者がビデオのフレームを研究した純粋に手動の技術で実験した。それはうまくいったが、労働集約的で時間のかかるものだったという。

具体的には、音声の音素が発話されている間の映像を分析するためにまず、音素の位置を抽出した。Google の Speech-to-Text APIを使用して、動画に関連付けられた音声トラックを自動的に転写。転記は手動でチェックしてエラーを取り除き、音声に整列します。この整列により、入力オーディオ/ビデオの開始時刻と終了時刻を含む一連の音素が生成される。

また「口の形」の測定では、与えられたシーケンスに対して、音素発生の開始付近の6つのビデオフレームから関連する口の形が検索される。小さな音素の整列の誤差を調整するために、複数のフレームを考慮。音素が発生する前に口を閉じる必要があるため、発生開始付近のフレームのみを解析する。

研究者たちは、バラク・オバマ前大統領のビデオ上で訓練した後、同じ分析を行うために、はるかに高速であろうAIベースのニューラルネットワークをテストした。ニューラルネットワークは、オバマ自身が関与するリップシンクの90%以上を検出したが、他の話者のリップシンクを検出する際の精度は約81%にまで低下した。

口の形のシーケンスの分析の一例。Source: Maneesh Agrawala et al. Detecting Deep-Fake Videos from Phoneme-Viseme Mismatches.

「モデルは、バラク・オバマの動画のみで学習したものだが、人物に特化しており、オバマの動画の方がはるかに良い結果が得られる傾向があった。大規模な人物のコーパスで学習されたネットワークを使えば、より良い結果が得られると期待している」と研究チームは記述している。

「このような制限があるにもかかわらず、我々の手法は、最新の口唇連動型のディープフェイクをすでに検出することができる。今後の合成技術では、音素と語素のマッチングをより慎重に考慮しながら、猫とネズミのゲームを続けていくことを期待している。私たちは、音素のミスマッチを利用したディープフェイクの検出を、フォレンジックエキスパートのツールキットの中のもう一つのツールと考えており、他の補完的な技術と一緒に開発して使用することを考えている」。

スタンフォードのブラウン・メディア・イノベーション研究所の所長であり、スタンフォード人間中心人工知能研究所(HAI)の教授でもあるAgrawalaは「動画を操作する技術が進歩するにつれ、操作を検出する技術の能力はますます低下していく。私たちは、誤情報を特定して減らすための非技術的な方法に焦点を当てる必要がある」とHAIのブログ記事の中で語った。「長い目で見ると、本当の課題は、ディープフェイク動画との戦いというよりも、偽情報との戦いである。実際、ほとんどの誤報は、人々が実際に言ったことの意味を歪めてしまうことから生じている」。

参考文献

Eyecatch Photo by UC Berkley / Youtube via https://youtu.be/51uHNgmnLWI

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)