AIを騙すことはそんなに難しくなかった

要点

AI（人工知能）は最近、言語の理解において大きな進歩を遂げているが、とても低いコストでAIを騙す攻撃手法がいくつも見つかっている。機械学習の社会実装が進んでいく中、これらの穴を塞がないといけない。

10％の言語を変更するだけで、ときに90%以上の精度でターゲットモデルを欺いた

最近の研究では、テキストを解析・分析するAIプログラムが、注意深く作られたフレーズに惑わされたり、騙されたりする可能性があることがわかっている。悪意をもって誘導すると、人間なら決してしないような誤った判断を下すことも明らかになってきた。例えば、AIは「止まれ」と書かれた標識の一部にシールを貼るだけで，「時速45km制限」の標識だと誤認する。あなたや私には簡単そうに見える文章も、AIアルゴリズムを欺く不思議な能力を持っているかもしれない。

テキストマイニングAIプログラムが、就職希望者を判断したり、医療請求を評価したり、法的文書を処理したりするのに使われることが増えている中で、それは問題だ。一握りの言葉に戦略的な変更を加えることで、フェイクニュースをAI検出器から逃れたり、インサイダー取引の兆候を探すAIアルゴリズムを妨害したり、健康保険の請求書から高額の支払いを誘発したりすることができる。

香港大学やシンガポールの科学技術研究庁の研究者と一緒に、テキストベースのAIプログラムを騙す技術を開発したMITの大学院生、ディ・ジンの研究は、このような「敵対的な例」は、金融や医療の分野で自動化されたシステムを騙すために使用されると、特に有害である可能性があることを証明したという。

Jinと同僚は、テキストの意味を変えずにAIシステムを欺くことができる「TextFooler」と呼ばれるアルゴリズムを考案した。このアルゴリズムはAIを使って、どの単語を同義語に変換して機械をだますべきかを提案している。

たとえば、映画のレビューを判定するように設計されたアルゴリズムを騙すために、TextFoolerは文章を改変した。

“The characters, cast in impossibly contrived situations, are totally estranged from reality.”（登場人物たちは、ありえないほどの矛盾した状況に置かれていて、現実とは全くかけ離れている）→否定的と分類

“The characters, cast in impossibly engineered circumstances, are fully estranged from reality.”（登場人物たちは、ありえないほどの人工的な状況に置かれ、現実から完全に疎外されている）→肯定的と分類

この改変により、アルゴリズムはレビューを「否定的」ではなく「肯定的」に分類した。このデモンストレーションは、AIが驚くほど賢くもあり、驚くほど間抜けでもあるという事実を浮き彫りにしている。

TextFoolerは2つの部分で動作する。まず、与えられたテキストを変更し、そのテキストを使用して、システムが機械学習モデルを騙すことができるかどうかを確認するために2つの異なる言語タスクをテストする。システムはまず、ターゲットモデルの予測に影響を与える最も重要な単語を特定し、文脈に合った同義語を選択する。これはすべて、予測が変更されるまで、十分に「人間」に見えるように文法と元の意味を維持しながら行われる。

そして、このフレームワークを、テキストの分類と、エンテイルメント（文中のテキスト断片間の関係）という2つの異なるタスクに適用し、分類を変更したり、元のモデルのエンテイルメント判定を無効にしたりすることを目的としている。

合計で、TextFoolerは、オープンソースの人気NLPモデルである「BERT」を含む3つのモデルを攻撃することに成功した。与えられたテキスト内の単語のわずか10%を変更するだけで、90%以上の精度から20%未満の精度でターゲットモデルを欺いた。チームは、分類や包含のためにモデルの予測を変更すること、人間の読者に元の例と比較して意味が似ているように見えるかどうか、そして最後にテキストが十分に自然に見えるかどうか、という3つの基準で成功を評価した。

さまざまな騙し方が存在する

機械学習は、データの中から微妙なパターンを見つけることで機能するが、その多くは人間には感知しないものだ。このため、機械学習に基づくシステムは、奇妙な種類の混乱に対して脆弱になっている。たとえば、画像認識プログラムは、人間の目には全く正常に見える画像に惑わされることがある。たとえば、ヘリコプターの画像のピクセルに微妙な微調整を加えることで、プログラムは犬を見ていると勘違いさせることができる。最も欺瞞的な微調整は、そもそもアルゴリズムを訓練するために使用されたものに関連したプロセスを使用して、AIを通して識別することができる。

研究者は、潜在的なリスクとともに、この脆弱性の範囲を調査している。脆弱性は、主に画像や音声認識システムで実証されている。AIを使ってAIを出し抜くことは、アルゴリズムがコンピュータ・セキュリティや軍事システムで重要な意思決定を行う際に、また騙そうとする努力がある場所であればどこでも、深刻な意味合いを持つ可能性がある。

スタンフォード人間中心AI研究所（Stanford Institute for Human-Centered AI）が発表した報告書では、特に、AIアルゴリズムを欺くために敵対的な例が使われる可能性があることが強調されており、これによって税金詐欺が可能になる可能性があることが示唆されている。

同時に、新しい機械学習技術と大量の学習データのおかげで、AIプログラムは言語の解析と生成が格段に上手になっている。昨年、OpenAIは「GPT-2」と呼ばれるツールを使って、ウェブ上の膨大な量のテキストを使って学習した後、説得力のあるニュース記事を生成できることを実証した。同じAIの進歩に基づく他のアルゴリズムでは、以前よりも正確にテキストの意味を要約したり、判断したりすることができる。

UCアーバインのSameer Singh助教授らは、一見ランダムに見えるいくつかの単語が、大規模な言語アルゴリズムを特定の方法で誤動作させることができることを示した。これらの「きっかけ」は、例えば、OpenAIのアルゴリズムが人種差別的なテキストでプロンプトに反応する原因になることがある。

しかしSinghらによると、MITのチームが実証したアプローチは、AIシステムを繰り返し調査する必要があり、疑念を抱かせる可能性があるため、実際に実行に移すのは難しいという。彼らはGPT−2で生成した差別的言動等の異なるトリガーを用いた攻撃手法を指摘している。

「これらのツールが意図的な敵対者攻撃に対して脆弱であれば、その結果は悲惨なものになるかもしれません」と、MITの博士課程の学生であり、TextFoolerに関する新しい論文の主執筆者でもあるDi Jinは言う。「これらのツールには効果的な防御アプローチが必要であり、そのような安全な防御システムを作るためには、まず敵対的な手法を検証する必要がある」。

ご支援のお願いします

こちらからお好きな金額を毎月、課金することができます。高品質のメディア製作のご支援を心よりお願いいたします。頂いたお金は、メディアの運営費用、機材購入、協力者へのギャラの支払いなどに充てます。ご支援頂けるとプレミアムコンテンツの製作が容易になり、読者の方々に数倍〜数十倍のメリットとして還元できると考えています。弊社が急ぎ足の資金調達を行った場合、証券市場への上場を急かされるため、提供価値の悪化が懸念されます。現状、運営に余裕がないため、支援者の方への特典を作ることは難しいですが、長期的には、拡充させる方向で検討しています。

Become a Patron!

参考文献

Di Li, Danilo Vasconcellos Vargas, Sakurai Kouichi. "Universal Rules for Fooling Deep Neural Networks based Text Classification". arXiv. [v2] Wed, 3 Apr 2019 05:55:49 UTC (2,522 KB).
Rachel Gordon. "Hey Alexa: Sorry I fooled you". MIT CSAIL. February 07, 2020.

Photo by Faris Mohammed on Unsplash