強化学習アルゴリズムと神経科学の共通点

DeepMindの研究者らは、脳が将来の可能な報酬を単一の平均としてではなく、代わりに確率分布として表現し、効果的に複数の将来の結果を同時にかつ並行して表現しているという仮説を立てた。この考えは経験的な予測を示唆しており、研究者らはマウスの腹側区分野からの単一単位の記録を用いて検証した。この結果は、強化学習が神経的に実現されていることを示す強力な証拠となった。

強化学習アルゴリズムと神経科学の共通点

要点

DeepMindの研究者らは、脳が将来の可能な報酬を単一の平均としてではなく、代わりに確率分布として表現し、効果的に複数の将来の結果を同時にかつ並行して表現しているという仮説を立てた。この考えは経験的な予測を示唆しており、研究者らはマウスの腹側区分野からの単一単位の記録を用いて検証した。この結果は、強化学習が神経的に実現されていることを示す強力な証拠となった。

パブロフに着想を得たミンスキー

1951年、当時ハーバード大学の学生だったマービン・ミンスキーは、動物の行動観察を借りて、知的な機械を設計しようとした。ミンスキーは、犬を使って動物が罰や報酬で学習する様子を示したことで有名な生理学者イワン・パブロフの研究からアイデアを得て、仮想迷路を解くために、同じような強化によって継続的に学習するコンピュータを作成した。

当時、神経科学者たちは、動物がこのような学習をするための脳内メカニズムをまだ解明していなかった。それでもミンスキーは、この行動をゆるやかに模倣することができ、それによって人工知能を進歩させることができた。数十年後、強化学習が成熟していくにつれ、神経科学の分野でもそのメカニズムが発見されるようになり、この2つの分野の発展の好循環が生まれた。

2020年1月にネイチャー誌に発表された論文の中で、アルファベット社のAI子会社であるDeepMindは、強化学習からの教訓を再び利用して、私たちの脳内の報酬メカニズムについての新しい理論を提案した。初期の実験結果に裏付けられたこの仮説は、メンタルヘルスやモチベーションの理解を向上させるだけでなく、現在の方向性を検証する可能性もある。また、より人間に近い一般知能の構築に向けたAI研究の現在の方向性を検証する可能性もある。

ドーパミンの報酬予測誤差理論は、強化学習の人工知能(AI)分野での研究に由来する。しかし、神経科学との結びつきが最初になされて以来、強化学習は大幅な進歩を遂げてきたため、強化学習アルゴリズムの有効性を大幅に高める要因が明らかになってきている。

強化学習はパブロフの犬から得られた洞察を踏襲している。エージェントが複雑で新しいタスクを習得するために、正と負のフィードバックだけで教えることが可能である。アルゴリズムは、どの行動が報酬を得られるかをランダムに予測することで、割り当てられたタスクの学習を開始する。次にその行動をとり、実際の報酬を観察し、誤差の範囲に基づいて予測を調整する。何百万回、あるいは何十億回もの試行を経て、アルゴリズムの予測誤差はゼロに収束し、その時点で報酬を最大化するためにどの行動をとればよいかを正確に把握し、タスクを完了させる。

脳の報酬システムは、強化学習アルゴリズムに触発されて1990年代に発見された。人間や動物がある行動をしようとすると、ドーパミンニューロンは期待される報酬を予測する。実際の報酬を受け取ると、予測エラーに対応する量のドーパミンを発射する。予想よりも良い報酬は、予想よりも悪い報酬は、化学物質の生産を抑制しながら、強力なドーパミンの放出をトリガします。言い換えれば、ドーパミンは補正信号として機能し、現実に収束するまで予測を調整するようにニューロンに指示する。報酬予測エラーとして知られるこの現象は、強化学習アルゴリズムによく似ている。

参考文献

  1. Wil Dabney et al. "A distributional code for value in dopamine-based reinforcement learning". Nature. 577, pages671–6752020.

Image by WikiImages from Pixabay

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史