ディープラーニングを覆す光学チップ

ペンシルバニア大学の電気工学者であるFirooz Aflatouni准教授らのチームは、光の力を使って毎秒数十億の画像を高精度で分析できるフォトニック・ディープ・ニューラル・ネットワーク・プロセッサを開発したと発表した。

このチップは特定のパターンを認識するように訓練された脳神経細胞をシミュレートすることによってデータを処理するものである。これは、物体検出、顔認識、音声認識など、さまざまなアプリケーションに有用だ。

現在のディープラーニングは、GPUやその他のASICなどを使ってニューロンの近似値をシミュレートすることで推論と学習を実現している。ニューラルネットワークでは、「ニューロン」を模した部品にデータを与え、協力して顔を認識するなどの問題を解決する。ニューラルネットは、ニューロン間のリンクを繰り返し調整し、その結果得られるパターンが、より良い解決策を見出すことができるかどうかを確認する。時間が経つにつれて、ネットワークはどのパターンが最もうまく結果を計算できるかを発見する。そして、それをデフォルトとして採用することで、人間の脳の学習プロセスを模倣している。ニューラルネットは、ニューロンを何層にも重ねたものを「ディープ」と呼ぶ。

このような人工知能（AI）システムの実社会への応用が進んでいるが、その実行に使用されるハードウェアには、いくつかの大きな課題がある。第一に、GPUなどのデジタルクロックを用いたプラットフォームで実装されるため、計算速度がクロック周波数に制限される。第二に、計算とデータの保存の両方が可能な生物学的ニューロンとは異なり、従来のエレクトロニクスではメモリとプロセッシングユニットが分離している。これらのコンポーネント間でデータをやり取りすることは、時間とエネルギーの浪費につながる。

今回、研究者らは、クロックやセンサー、大容量のメモリーモジュールを必要とせずに画像を直接分析できる「フォトニック・ディープ・ニューラル・ネットワーク」を開発した。Nature誌に掲載された概念実証では、このフォトニクスチップは570ピコ秒以下で画像を分類することができ、その精度は89.8～93.8%に達した。これは、このチップを画像分類のハイエンドGPUに匹敵させるものだと著者らは主張している。

これは、まばたきに要する時間（1/3秒）で5億枚強の画像を処理できる計算となる。さらに、現在市販されている製造プロセスを用いれば、1画像あたり100ピコ秒程度の高速処理が可能であると、研究チームは記述している。

さらに、電気部品と光部品の両方をモノリシックに集積する商業的な製造プロセスにより、数十ギガヘルツの帯域幅と100ピコ秒以下の処理時間を実現し、チップをさらに加速させることができると、研究者たちは考えている。

イメージセンサーから物理的に分離されていたり、クロック周波数に縛られていたりする既存の深層神経ネットワーク技術に比べ、低消費電力、高スループット、ボトルネックの減少など、多くの利点があるという。さらに、すべての計算がチップ内で行われるため、イメージセンサーは必要ない。むしろ、処理は光学的に行われるため、イメージセンサーとなる。

ただ、実証実験に使われた画像は30ピクセルと非常に小さいものだった。手書きの「P」と「D」の文字を投影し、分類するテストだった。それでも、Pythonで動作する一般的なディープラーニングAPI「Keras」（96％）にはわずかに及ばない精度を達成することができた。

「このフォトニック分類器チップは、低消費電力と超低い計算時間により、イベント駆動型や顕著な物体検出などのアプリケーションに革命をもたらすことができる」と、論文の著者は書いている。