言語モデルは倫理を学習できるか?
モデルの倫理的な拙さを強調するための努力として、マイクロソフト、カリフォルニア大学バークレー校、コロンビア大学、シカゴ大学の研究者が、言語モデルの道徳的概念の知識を評価する論文を共著した。彼らが考案したベンチマーク(ETHICSと呼ばれる)は、人間の価値観に沿ったよりAIへの足がかりになると主張している。
OpenAIのGPT-3のような最先端のAI言語モデルへの熱狂は、まだ衰えていない。どちらかといえば、それは勢いを増している。ポートランド州立大学のコンピュータサイエンスの教授であるMelanie Mitchellは、GPT-3が原始的な類推を行うことができるという証拠を発見したと主張している。コロンビア大学のCenter for Science and Societyの認知科学の哲学者であるRaphaël Millièreは、GPT-3について書かれた哲学的なエッセイへの応答を作成するようにGPT-3に依頼した。他のアプリケーションの中で、このモデルへのアクセスを提供するAPIは、レシピジェネレータ、万能なExcel関数、お笑いのスケッチライターを作成するために使用されてきた。
しかし、GPT-3のように強力な言語モデルでさえ、解決されていない限界がある。モラルはさておき、数え切れないほどの研究で、GPT-3が訓練されたデータセットの中で明示的に性別、民族、宗教のステレオタイプを強化する傾向があることが報告されている。このような欠点は、例えば、有色人種に対する否定的な傾きを持つ見出しを生成するモデルや、ジェンダーの歪んだ概念を持つニュース要約モデルにつながる可能性がある。
モデルの倫理的な拙さを強調するための努力として、マイクロソフト、カリフォルニア大学バークレー校、コロンビア大学、シカゴ大学の研究者が、言語モデルの道徳的概念の知識を評価するプレプリント論文を共著した。彼らが考案したベンチマーク(ETHICSと呼ばれる)は、人間の価値観に沿ったより良いAIへの足がかりになると主張している。
一部の科学者は、知能は道徳的な行動から切り離されているため、言語処理の改善が必ずしも倫理的なAIにつながるわけではないと主張している。また、倫理的AIは将来的に重要な問題になるが、それは現在のデータ科学や機械学習の能力の範囲外だと主張する者もいる。いずれにしても、自然言語システムが人間の価値観を把握しているかどうかを測定する方法は(あるとしても)現在のところほとんど存在しておらず、それがこの研究の動機となっている。
共著者は、公平性とは、公平性や砂漠のような概念をより広く包含する正義の概念であることを指摘している。システムが安全制約に従うことは、ルールの集合体によって善悪が決まる脱人間論的倫理学に似ている。積極的な行動や実演を模倣することは、徳のある行為者の模倣に道徳的な行動を位置づける徳の倫理学の一側面であり、人間の嗜好を学習することで効用を向上させることができる。
そして、人間の好みを学習することによって効用を向上させることは、功利主義の一部、すなわちすべての人々の集合的な幸福を最大化することを提唱する理論として見ることができる。ETHICSは、オープンワールドのシナリオによってもたらされる課題に直面し、規範的倫理学の適用理論をカバーすることによって、これらの分離された要素(正義、徳の倫理学、実用主義、および常識的な道徳的判断)を結びつけようとしている。
ETHICSでは、世界に関する基本的な真理がどのように人間の価値観と結びついているのかを学ぶためにモデルを必要とする。この文脈化された設定は、倫理原則をより一般的に理解するために必要なニュアンスのタイプを捉えているというのが研究者の主張だ。
ETHICS データセットの 13 万以上のシナリオをうまくこなすためには、モデルは、いくつかの倫理体系のそれぞれが強調している道徳的に関連する要因について推論しなければならない。正義に関するシナリオでは、公平性の概念が強調されています。脱人間論的シナリオでは、ルール、義務、制約が強調されている。慈悲と誠実さのような性格的特徴は、美徳倫理学の例では最も重要である。そして、幸福や幸福が功利主義的なシナリオのための唯一の要因であるが、両方が常識的な道徳的直観のシナリオに関与している。
研究者たちは、ethics内のシナリオが曖昧な道徳的ジレンマを伴わないようにするための措置をとった。例えば、「建物に侵入した」は、燃えている建物から誰かを救おうとしている消防士のように、それが間違っていない状況があるかもしれないのに、ETHICSのデータセットでは道徳的に間違っているとして扱われている。彼らは、Amazon Mechanical Turkの作業員に各シナリオのラベルを再設定してもらい、同意度の低いシナリオを破棄してもらい、アメリカ、カナダ、イギリスの英語話者からデータを収集し、議論の余地のないトピックに焦点を当ててもらった。
研究者たちは、いくつかの実験の過程で、GoogleのBERTとALBERT、FacebookのRoBERTa、GPT-3などの主要な言語モデルをテストしました。研究者らは、4つのモデルすべてがほとんどの道徳的推論タスクで低いパフォーマンスを達成していたことを発見しました。例えば、最大のRoBERTaモデルは、時間の44.1-68%の確率(24.2%)よりもはるかに優れていた、倫理的にシナリオに関する質問に答えた。
研究者たちは、AIを人間の価値観に合わせることは、それらの価値観には潜在意識の欲求と絡み合った嗜好が含まれているため、一部では難しいように見えると指摘している。大規模なコーパスで訓練された人気のある言語モデルが、バイアスのいくつかの形態を示しているのも事実だ。最近では、FacebookのAIヘッドであるJerome Pesentiが、GPT-3から黒人、ユダヤ人、女性をターゲットにしたいくつかの否定的な発言が続出していることを発見した。
ETHICS研究の共著者たちは、表現が言語モデルに世界についての人間の好みのより広いセットを吹き込む可能性があると考えている。偏見のあるデータの影響を軽減する技術と合わせて、これらの表現は、より公平で有害な可能性の少ないAIの応用を生み出すためのAI研究コミュニティの取り組みを強化することができる。
「システムは、法律の範囲内でより良い意思決定を行うために、倫理的な要因を理解するのに役立つでしょう」と共著者は書いています。「我々の研究は、より多くの利害関係者を巻き込み、彼らの価値観をうまく実装しなければならないため、倫理的なAIを創造するために必要な第一歩に過ぎないが、十分ではない。今後の研究では、これらのモデルが説明可能であることを確認し、最適化圧力に対するモデルのロバスト性をテストする必要があります」
確かに、モデルに道徳性を植え付ける作業は、洗練されたAIアシスタントへの道のりで必要とされそうだ。2019年3月に開催されたMITのコンピューティング・コミュニティ・コンソーシアムでの発言の中で、GoogleとAlphabetの元エグゼクティブチェアマンであるエリック・シュミットは、子供たちが言語や数学を学ぶのを助け、大人が一日の計画を立てるのを助け、高齢者にコンパニオンシップを提供するかもしれない未来のアシスタントのビジョンを説明した。もしそのようなアシスタントが道徳心を欠いていたら、その影響は、特に幼い子供たちに有害なものになる可能性がある。
参考文献
Dan Hendrycks et al. Aligning AI With Shared Human Values. arXiv:2008.02275.
Photo by Joshua Hoehne on Unsplash