強化学習アルゴリズムと神経科学の共通点

DeepMindの研究者らは、脳が将来の可能な報酬を単一の平均としてではなく、代わりに確率分布として表現し、効果的に複数の将来の結果を同時にかつ並行して表現しているという仮説を立てた。この考えは経験的な予測を示唆しており、研究者らはマウスの腹側区分野からの単一単位の記録を用いて検証した。この結果は、強化学習が神経的に実現されていることを示す強力な証拠となった。

吉田拓史

23 7月 2020 — 3 min read

要点

パブロフに着想を得たミンスキー

1951年、当時ハーバード大学の学生だったマービン・ミンスキーは、動物の行動観察を借りて、知的な機械を設計しようとした。ミンスキーは、犬を使って動物が罰や報酬で学習する様子を示したことで有名な生理学者イワン・パブロフの研究からアイデアを得て、仮想迷路を解くために、同じような強化によって継続的に学習するコンピュータを作成した。

当時、神経科学者たちは、動物がこのような学習をするための脳内メカニズムをまだ解明していなかった。それでもミンスキーは、この行動をゆるやかに模倣することができ、それによって人工知能を進歩させることができた。数十年後、強化学習が成熟していくにつれ、神経科学の分野でもそのメカニズムが発見されるようになり、この2つの分野の発展の好循環が生まれた。

2020年1月にネイチャー誌に発表された論文の中で、アルファベット社のAI子会社であるDeepMindは、強化学習からの教訓を再び利用して、私たちの脳内の報酬メカニズムについての新しい理論を提案した。初期の実験結果に裏付けられたこの仮説は、メンタルヘルスやモチベーションの理解を向上させるだけでなく、現在の方向性を検証する可能性もある。また、より人間に近い一般知能の構築に向けたAI研究の現在の方向性を検証する可能性もある。

ドーパミンの報酬予測誤差理論は、強化学習の人工知能（AI）分野での研究に由来する。しかし、神経科学との結びつきが最初になされて以来、強化学習は大幅な進歩を遂げてきたため、強化学習アルゴリズムの有効性を大幅に高める要因が明らかになってきている。

強化学習はパブロフの犬から得られた洞察を踏襲している。エージェントが複雑で新しいタスクを習得するために、正と負のフィードバックだけで教えることが可能である。アルゴリズムは、どの行動が報酬を得られるかをランダムに予測することで、割り当てられたタスクの学習を開始する。次にその行動をとり、実際の報酬を観察し、誤差の範囲に基づいて予測を調整する。何百万回、あるいは何十億回もの試行を経て、アルゴリズムの予測誤差はゼロに収束し、その時点で報酬を最大化するためにどの行動をとればよいかを正確に把握し、タスクを完了させる。

脳の報酬システムは、強化学習アルゴリズムに触発されて1990年代に発見された。人間や動物がある行動をしようとすると、ドーパミンニューロンは期待される報酬を予測する。実際の報酬を受け取ると、予測エラーに対応する量のドーパミンを発射する。予想よりも良い報酬は、予想よりも悪い報酬は、化学物質の生産を抑制しながら、強力なドーパミンの放出をトリガします。言い換えれば、ドーパミンは補正信号として機能し、現実に収束するまで予測を調整するようにニューロンに指示する。報酬予測エラーとして知られるこの現象は、強化学習アルゴリズムによく似ている。