ディープラーニング(深層学習)は、電話とペアリングする音声認識から、前方の障害物を見て認識する自律走行車まで、私たちの身の回りのテクノロジーに革命をもたらしています。しかし、この成功の多くは、ディープラーニング・ネットワーク自体が試行錯誤を必要としていることを示しています。MITの研究者グループは最近、ディープラーニング・ネットワークの理論的理解を深めるための貢献をレビューし、この分野を前進させるための方向性を示しました。

McGovern Institute for Brain Researchの研究者であり、Center for Brains, Minds, and Machines (CBMM)のディレクターであり、脳・認知科学の教授であるTommy Poggioは論文で、ディープラーニングはある意味で偶然の発見であり、なぜそれが機能するのか、まだ理解できていないが、理論的な枠組みが形成されつつあり、納得のいく理論に近づいている可能性がある、と説明しています。Poggioは、MITのComputer Science and Artificial Intelligence Laboratory (CSAIL)の研究員でもある。

単一の「層」のニューロンよりも構成関数を近似するのに優れている

現代は、あらゆる種類の安価なセンサーからのデータ、テキスト、インターネット、そして生命科学分野で生成される大量のゲノムデータなど、データが非常に豊富に存在しています。今日、コンピュータはこれらの多次元データセットを摂取し、数学者の故リチャード・ベルマンによって「次元の呪い」と呼ばれる一連の問題を生み出しています。

これらの問題の一つは、滑らかで高次元の関数を表現するには、天文学的に膨大な数のパラメータが必要であるということです。ディープニューラルネットワークは、このような複雑なデータを表現したり、近似したりする方法を学習するのが得意であることがわかっていますが、なぜでしょうか? その理由を理解することは、深層学習の応用を発展させるのに役立つ可能性があります。

Poggioと共著者のAndrzej Banburski、Qianli Liaoは、なぜディープラーニングが「次元の呪い」のようなデータの問題を克服できるのかを指摘しています。彼らのアプローチは、多くの自然構造が階層的であるという観察から始まります。木の成長と発展をモデル化するためには、すべての小枝の位置を特定する必要はありません。その代わりに、モデルはローカルルールを使って階層的に分岐を駆動することができます。霊長類の視覚システムは、複雑なデータを処理するときに似たようなことをするようです。木、猫、顔などの自然の画像を見るとき、脳は局所的な画像のパッチ、次にパッチの小さなコレクション、そしてパッチのコレクションのコレクションを連続的に統合します。

電気工学・コンピュータサイエンス学科の大学院生でCBMMのメンバーでもある共著者のLiaoは、物理世界は構成的なものであり、言い換えれば、多くの局所的な物理的相互作用によって構成されている、と説明します。これはイメージを超えています。言語や私たちの思考は構成的であり、神経系でさえも、ニューロンがどのように相互に接続するかという点で構成的です。レビューは、なぜディープニューラルネットワークがこの複雑さを表現するのに優れているのかを理論的に説明している、と彼は説明しています。

直感的には、たとえニューロンの総数が同じであっても、階層型ニューラルネットワークの方が、単一の「層」のニューロンよりも構成関数を近似するのに優れているはずだということです。彼らの研究の技術的な部分では、「近似するのが上手い」とは何を意味するのかを特定し、その直感が正しいことを証明しています。

長期的には、より優れたインテリジェントな機械を開発・構築する能力は、テクノロジーを基盤とした経済にとって不可欠なものになるはずだ、と彼らは記述しています。結局のところ、現在の(まだ非常に不完全な)状態であっても、ディープラーニングは私たちの社会や生活のあらゆる側面に影響を与えています、と指摘している。

参考文献

Tomaso Poggio, Andrzej Banburski, Qianli Liao. Theoretical issues in deep networks. PNAS first published June 9, 2020