Googleの「民主的AI」は国家より富の再分配がうまい

富の大半が最上位層に集中し驚異的なレベルの貧困と不平等を生み出していることは周知のとおりだ。しかし、現在の政治システムがこの富の上方抽出を確実に続ける一方で、AI研究者たちは、より公平に資源を分配する社会を作るために、人間よりも機械学習の方が適しているのだろうか、という興味深い問題に取り組み始めている。

グーグルのDeepMindの研究者がNature Human Behaviourに発表した最近の論文によると、その答えは「イエス」のようだ。少なくとも、この研究の参加者に関する限りは。

この論文では、ディープニューラルネットワークに、人間が好むより公平な方法で資源を分配するよう命じた一連の実験について説明している。研究者らは4人のプレイヤーが参加する簡単なゲームを作成した。ゲームの各インスタンスは10ラウンドにわたって行われた。各ラウンドでは、各プレイヤーに資金が割り当てられ、資金の大きさはプレイヤーによって異なる。各プレイヤーは、その資金を自分のものにするか、共通のプールに投資するかを選択した。この資金は、人間の経済システムをベースにした3種類の再分配方式と、AIが独自に開発した「人間中心再分配メカニズム（HCRM）」と呼ばれる方式でプレイヤーに還元される。そして、人間はどの再分配方式を選ぶか、投票によって決める。

その結果、AIが作った分配方式が、参加者の大多数に好まれた。厳密なリバタリアンや平等主義のシステムでは、各プレイヤーがどれだけ貢献したかなどに基づいてリターンを分配するが、AIのシステムでは、ゲーム開始時にプレイヤーが持っていた有利・不利を是正し、フリーライダーを制裁するメカニズムを発見し、最終的に多数決で好ましい方法として勝ち取った。

AIの再分配方式は深層強化学習（RL）エージェントが設計したもの。研究者らはエージェントを訓練するために、まず大量の人間集団のデータを記録し、人々がどのようにゲームをプレイするかをコピーするようにニューラルネットワークに学習させた。シミュレーションによってニューラルネットが想定した「仮想」プレイヤーの得票を最大化させるようRLエージェントを訓練したという。

「HCRMは、広くリベラルな平等主義的政策を追求し、プレイヤーに寄付金に対する貢献度に応じて補償することで、既存の所得格差を縮小しようとした」と、論文の著者は書いている。

著者は人間の思想と一致するAIを作ることを目的としたと説明している。「AIシステムは、人間の価値観と相容れない政策を学習することが批判されることがあり、この『価値観の一致』の問題は、AI研究の大きな関心事となっている」と著者は書いている。「我々のアプローチの長所は、AIが直接、集団の選好（または投票）を最大化するように学習することである。このアプローチにより、AIシステムが安全でない、あるいは不公平な政策を学習する可能性を低くすることができるかもしれない」

実際、研究者がAIが発見した政策を分析したところ、再配分問題を解決するために人間の思想家や専門家が過去に提案したアイデアが混ざっていたという。

プレイヤーが公的資金にコインを拠出する経済学ゲームを説明した図。出典：Koster, R., Jan, B., Tacchetti, A. et al (2022)

「AI研究において、人間と互換性のあるシステムを構築するためには、人間とエージェントが対話する新しい研究手法が必要であり、価値観の一致したAIを構築するために、人間から直接価値を学ぶ努力を増やす必要があるという認識が広まっています」と著者は書いている。

著者はこれが打ち出の小槌ではないと継承も鳴らしている。「AIのシステムは人間の参加者に好まれたが、それが必ずしも、より大きなスケールで人間のニーズを公平に満たすことを意味するわけではない」。また、研究者たちは、この実験がAIによるガバナンスの抜本的な提案ではなく、AIが公共政策にどのように介入しうるかについての今後の研究の枠組みであるとも注記している。

参考文献

Koster, R., Jan, B., Tacchetti, A. et al. Human-centred mechanism design with Democratic AI. Nat Hum Behav (2022). https://doi.org/10.1038/s41562-022-01383-x