ディープラーニングの炭素排出を縮小する方法

AIの最近の進歩に対する興奮の一部は、警鐘に移っている。昨年の研究では、マサチューセッツ大学アマースト校の研究者が、大規模な深層学習モデルを訓練すると、地球温暖化の原因となる二酸化炭素が62万6000ポンド(約28万キログラム)発生し、これは自動車5台分の生涯排出量に相当すると試算している。

ディープラーニングの炭素排出を縮小する方法

6月にOpenAIは世界最大の言語モデルを発表しました。これは、創造的な小説を書いたり、法律用語を平易な英語に翻訳したり、不明瞭なトリビアの質問に答えたりすることができる、GPT-3と呼ばれるテキスト生成ツールだ。これは、脳内のニューロンが情報を処理して保存する方法を模した機械学習法であるディープラーニングによって達成された知性の最新の偉業である。

モデルが標準的なニューラルネットワークチップ(GPU)で学習されたと仮定すると、少なくとも460万ドルと計算時間355年という高額な代償を払うことになる。このモデルの巨大なサイズ(一般的な言語モデルの1000倍)が、高額なコストの主な要因である。

arXivに公開された論文では、30人以上の共著者からなるチームがモデルといくつかの実験について説明しているが、それまでの自然言語処理の研究では、より大きなモデルが解決策になる可能性があることが示されており、研究チームは以前のモデルであるGPT-2のパラメータを15億個からGPT-3では、1750億個に増やした。GPT-3はいくつかの不備を含みながらもそれを実証した。

OpenAIが文章生成AIのGPT-3を商用化
OpenAIは、その機械学習技術を使って企業がテキストを生成、分析、処理することで収入を得る初の商用サービスを6月に開始した。マイクロソフトのクラウドプラットフォームAzureからAPI経由で同社が開発したテキスト生成器「GPT-3」を利用できる。現状、実験に興味のある企業や学術関係者にベータ版に過ぎない。
GPT-3が1750億パラメータで構成される理由
OpenAIの研究者たちはこのほど、1750億個のパラメータで構成された最先端の言語モデル「GPT-3」の開発について説明した論文を発表した。これまでの研究では、より大きなモデルが解決策になる可能性があることが示されており、GPT-3はいくつかの不備を含みながらもそれを実証した。

パフォーマンスを少しでも向上させるためには、より多くの計算量を投入しなければならず、計算資源が深層学習の制約になっている、というのがMITの研究者であり、ディープラーニングのコンピューティングに対する飽くなき要請を研究してきたニール・トンプソンの主張だ。ディープラーニングをスケーリングするためのより効率的な方法を見つけるか、他の技術を開発しなければならない、とトンプソンは論文に記述している。

計算能力がディープラーニングの制約に
ディープラーニングの進歩は計算能力の向上に大きく依存していることを示している。この依存度を考慮すると、現在の路線での進歩は急速に経済的、技術的、環境的に持続不可能になる可能性がある。継続的な進歩には、劇的に計算効率の高い方法が必要となり、ディープラーニングの改善、他の機械学習方法への移行からもたらされる。

AIの最近の進歩に対する興奮の一部は、警鐘に移っている。昨年の研究では、マサチューセッツ大学アマースト校の研究者が、大規模な深層学習モデルを訓練すると、地球温暖化の原因となる二酸化炭素が26万6000ポンド(約1,000万円)発生し、これは自動車5台分の生涯排出量に相当すると試算している。モデルが大型化するにつれ、コンピューティングの需要はハードウェアの効率性の向上を上回るようになっている。GPU(グラフィックス・プロセッシング・ユニット)やTPU(テンソル・プロセッシング・ユニット)のようなニューラル・ネットワーク処理に特化したチップは、より多くのコンピューティングの需要を相殺しているが、十分ではない。

ニューラルネットワークは、1950年代のパーセプトロンという初期の段階から、計算量の限界に悩まされてきた。計算能力が爆発的に向上し、インターネットが大量のデータを放出するようになると、ニューラルネットワークはパターン認識と予測のための強力なエンジンへと進化した。しかし、新しいマイルストーンを迎えるたびに、データを大量に消費するモデルは計算量を増やす必要があるため、コストは爆発的に上昇した。例えば、GPT-3は、5000兆語の単語を使って学習し、モデルを結びつけるための数学的演算や重みである1750億個のパラメータにまで膨れ上がり、わずか1年前の前身のモデルの100倍の大きさになった。

プレプリントサーバarXivに投稿された研究で、トンプソンとその同僚は、ディープラーニングモデルが主要なベンチマークを上回る能力を持つことで、コンピューティングパワーの使用量がほぼ指数関数的に増加していることを示している(AIの炭素排出を追跡しようとしている他の研究者と同様に、チームは報告要件がないため、多くのモデルのエネルギー消費量を推測しなければならなかった)。研究チームは、このままでは、ディープネットとその上で動作するハードウェアが根本的に効率化されない限り、ディープネットは生き残れないと研究者たちは主張している。

よりリーンでグリーンなアルゴリズムを目指して

人間の知覚システムはデータを利用するのに非常に効率的だ。研究者たちは、ビデオや実生活での動作を認識するためにこのアイデアを借りて、モデルをよりコンパクトにしている。8月に開催されたECCV(European Conference on Computer Vision)の論文では、MIT-IBMワトソンAIラボの研究者が、人間と同じように、いくつかの視線から最も関連性の高いデータを選んでシーンを展開する方法を説明している。

サンドイッチを作っている人のビデオクリップを撮るのだが、この論文で概説されている方法では、ポリシーネットワークは、ローストビーフをナイフで切り裂く様子や、パンの上に肉を重ねる様子を高解像度で表現するためのフレームを戦略的に選択する。関連性の低いフレームはスキップされたり、低解像度で表現されたりする。2つ目のモデルでは、CliffsNotesの短縮版を使用して、"making a sandwich" というラベルを付けている。このアプローチにより、次善のモデルの半分の計算コストで、より高速な動画分類が可能になると研究者らは述べている。

補完的なアプローチとして、研究者たちはディープラーニング自体を利用して、ニューラルアーキテクチャ探索として知られる自動化されたプロセスを通じて、より経済的なモデルを設計している。この論文の主著者であるMITの助教授であるSong Hanは、自動検索を使用して、より少ない重みでモデルを設計している。

ECCVで発表された論文の中で、Hanと彼の同僚は、道路標識、歩行者、自転車などの安全上重要な詳細を比較的少ない計算量で見つけることができる3次元シーン認識のためのモデルアーキテクチャを提案している。彼らは進化探索アルゴリズムを使用して1,000のアーキテクチャを評価した後、次の最も優れた方法よりも3倍速く、8倍少ない計算量で使用できるモデルに落ち着いた。

最近の別の論文では、拡張設計された空間内での進化的探索を利用して、GPU、スマートフォン、小型のRaspberry Piなど、特定のデバイス上で機械翻訳を行うための最も効率的なアーキテクチャを見つけ出している。検索と学習プロセスを分離することで、計算量を大幅に削減できるという。

新しいトレーニング技術でエッジデバイス上の言語モデルを高速化
MITコンピュータサイエンス・人工知能研究所(CSAIL)とMIT-IBMワトソンAIラボの研究者はこのほど、GoogleのTransformerアーキテクチャを組み込んだAIモデルトレーニング技術であるHardware-Aware Transformers(HAT)を提案しました。

第三のアプローチでは、研究者たちは、上記のような超効率的なネットワークのごく一部を訓練することが可能であるかどうかを確認するために、ディープネットの本質を探っている。提案された「宝くじ仮説」の下で、博士課程の学生ジョナサン・フランクルとMITのマイケル・カービン教授は、それぞれのモデルの中に、10分の1ほどの数の重みで分離して訓練されている可能性がある小さなサブネットワークがあることを提案した。彼らは「勝利のチケット」("winning tickets")と呼んでいる。

彼らは、アルゴリズムが小さな画像分類モデルの中から、これらの勝ち組サブネットワークを遡って見つけることができることを示した。現在、国際機械学習会議(ICML)で発表された論文では、アルゴリズムが大規模モデルでも「勝利のチケット」を見つけることを示している。

2年足らずで、宝くじのアイデアは400回以上引用されている。なぜこのような大規模なネットワークが必要なのかについての標準的な説明は、過剰パラメータ化が学習プロセスを助けるからだ。宝くじの仮説はそれを反証している。もちろん、大きな欠点は、現在のところ、これらの「当選する」出発点を見つけるには、いずれにしてもオーバーパラメタライズされたネットワークを完全に訓練する必要があるということだ。

フランクルは、勝利のチケットを見つける効率的な方法が見つかることを期待しているという。その間に、Morcosが提案するように、勝利のチケットを再利用することで、大きな節約につながる可能性がある。

参考文献

  1. Neil C. Thompson et al. The Computational Limits of Deep Learning. arXiv. July 10, 2020.
  2. Haotian Tang et al. Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution. Aug, 2020.
  3. David R.So et al. The Evolved Transformer. arXiv:1901.11117.
  4. Hanurui Wang et al. HAT: Hardware-Aware Transformers for Efficient Natural Language Processing. arXiv:2005.14187. [Submitted on 28 May 2020]
  5. Jonathan Frankle, Michael Carbin. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks. arXiv:1803.03635. [Submitted on 9 Mar 2018 (v1), last revised 4 Mar 2019 (this version, v5)]

Photo by Marcin Jozwiak on Unsplash

Read more

新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)
新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

新型ジェットエンジンが超音速飛行を復活させる可能性[英エコノミスト]

1960年代以来、世界中のエンジニアが回転デトネーションエンジン(RDE)と呼ばれる新しいタイプのジェット機を研究してきたが、実験段階を超えることはなかった。世界最大のジェットエンジン製造会社のひとつであるジー・エアロスペースは最近、実用版を開発中であると発表した。今年初め、米国の国防高等研究計画局は、同じく大手航空宇宙グループであるRTX傘下のレイセオンに対し、ガンビットと呼ばれるRDEを開発するために2900万ドルの契約を結んだ。 両エンジンはミサイルの推進に使用され、ロケットや既存のジェットエンジンなど、現在の推進システムの航続距離や速度の限界を克服する。しかし、もし両社が実用化に成功すれば、超音速飛行を復活させる可能性も含め、RDEは航空分野でより幅広い役割を果たすことになるかもしれない。 中央フロリダ大学の先端航空宇宙エンジンの専門家であるカリーム・アーメッドは、RDEとは「火を制御された爆発に置き換える」ものだと説明する。専門用語で言えば、ジェットエンジンは酸素と燃料の燃焼に依存しており、これは科学者が消炎と呼ぶ亜音速の反応だからだ。それに比べてデトネーシ

By エコノミスト(英国)
ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

ビッグテックと地政学がインターネットを作り変える[英エコノミスト]

今月初め、イギリス、エストニア、フィンランドの海軍がバルト海で合同演習を行った際、その目的は戦闘技術を磨くことではなかった。その代わり、海底のガスやデータのパイプラインを妨害行為から守るための訓練が行われた。今回の訓練は、10月に同海域の海底ケーブルが破損した事件を受けたものだ。フィンランド大統領のサウリ・ニーニストは、このいたずらの原因とされた中国船が海底にいかりを引きずった事故について、「意図的なのか、それとも極めて稚拙な技術の結果なのか」と疑問を呈した。 海底ケーブルはかつて、インターネットの退屈な配管と見なされていた。現在、アマゾン、グーグル、メタ、マイクロソフトといったデータ経済の巨人たちは、中国と米国の緊張が世界のデジタルインフラを分断する危険性をはらんでいるにもかかわらず、データの流れをよりコントロールすることを主張している。その結果、海底ケーブルは貴重な経済的・戦略的資産へと変貌を遂げようとしている。 海底データパイプは、大陸間インターネットトラフィックのほぼ99%を運んでいる。調査会社TeleGeographyによると、現在550本の海底ケーブルが活動

By エコノミスト(英国)