アレン研究所、AI言語モデルに蔓延する毒性を発見
アレン人工知能研究所の研究者は、AI言語モデルから人種差別的、性差別的、またはその他の有害な反応を引き出すためのデータセット「RealToxicityPrompts」を作成し、モデルがこれらの反応を好むかどうかを測定する方法として試みた。実験では、現在の機械学習技術では有毒な出力を十分に防ぐことができず、より良いトレーニングセットとモデルアーキテクチャの必要性が強調されていることがわかった。
アレン人工知能研究所の研究者は、AI言語モデルから人種差別的、性差別的、またはその他の有害な反応を引き出すためのデータセット「RealToxicityPrompts」を作成し、モデルがこれらの反応を好むかどうかを測定する方法として試みた。実験では、現在の機械学習技術では有毒な出力を十分に防ぐことができず、より良いトレーニングセットとモデルアーキテクチャの必要性が強調されていることがわかったと主張している。
arXivに投稿された論文によると、モデルが訓練されたデータのバイアスを増幅することはよく知られている。データの一部は、性別、人種、宗教的な偏見が蔓延しているコミュニティからのものであることが多いため、これは言語領域では問題となる。AI研究会社OpenAIは、これが「いたずら」や「吸われた」などの単語を女性の代名詞の近くに置いたり、「イスラム教」を「テロリズム」のような単語の近くに置いたりすることにつながる可能性があると指摘している。
インテル、マサチューセッツ工科大学(MIT)、カナダのAIイニシアチブCIFARの研究者が4月に発表したような他の研究では、GoogleのBERTやXLNet、OpenAIのGPT-2、FacebookのRoBERTaなど、最も人気のあるモデルのいくつかから高レベルのステレオタイプのバイアスが検出されている。
共著者らは、RealToxicityPromptsを使用して5つの言語モデル、特にOpenAIの3つのモデル(GPT-1 GPT-2 GPT-3)とSalesforceの2つのモデル(CTRLとCTRL-Wiki)を評価した。その結果、毒性のあるプロンプト(攻撃的なプロンプトやステレオタイプに偏ったプロンプト)は、70%以上の確率で言語モデルから毒性のある内容が得られる一方で、毒性のないプロンプトでも攻撃的な反応が得られることがわかった。結果は、CTRL-WikiのようにWikipediaのデータのみで学習されたモデルであっても、すべてのモデルが49%以上の確率で、毒性のないコンテンツに毒性のある応答をもたらすことを示している。
この潜在的な理由を明らかにするために、研究者たちは、いくつかの言語モデルの事前訓練に使用されたコーパスを調査した。それはOpenAI-WT(GPT-2のトレーニングデータ)とOWTC(OpenAI-WTのオープンソースフォーク)だ。OWTCには、カルマが3以上のRedditの投稿からのテキストと、ニュース記事を含む38GBの英語文書が含まれている。OpenAI-WT - OWTCとの重複率は29%で、OpenAI-WTの少なくとも230万件の文書がOWTCにも含まれている - 性的に露骨な、あるいは他の方法で攻撃的なサブレッディットのブロックリストを使用してフィルタリングされた約800万件の文書が含まれている。
研究者らは、OWTCとOpenAI-WTには、Perspective APIによって特定された「無視できない」量の"毒性"が含まれていることを発見した。OWTCの文書の約2.1%が攻撃的であったのに対し、OpenAI-WTでは4.3%であり、ブロックリストにもかかわらずOWTCの2倍であった。信頼性の低いニュースサイトもまた、禁止されていたり隔離されているサブレディットからの投稿と同様に、データセットにおける毒性の主な原因となっていた。実際、OpenAI-WTとOWTCの63,000件の文書は、問題のあるRedditコミュニティで共有されたリンクから来ている。GPT-2は、隔離された/r/The_Donaldからの少なくとも40,000件の文書と、禁止された/r/WhiteRightsからの4,000件の文書に対して事前学習を行った。
「全体的に、我々の調査は、ニューラル言語生成とウェブテキストコーパスの両方において、毒性が蔓延している問題であることを示している」と、共同研究者らは、研究を記述した論文で書いている。「毒性の低減は見られるものの、ステアリング法はニューラルモデルを毒性変性から完全に保護するものではない。さらに、言語モデルが事前に訓練されたコーパスには、無視できないほどの量の有毒、悪用、信頼できないコンテンツが含まれている」
Photo by Atul Vinayak on Unsplash