進歩速すぎ…スマホだけで動く軽量LLMがたった3週間で爆誕

ある大規模言語モデル（LLM）がオープンソースで公開されると、すぐさま微調整が進み、スマートフォンやタブレットでの動作が確認された。界隈の課題とされたオンデバイスの軽量AIがたった3週間で生まれてしまった。

吉田拓史

2023年3月27日 — 2 min read

Photo by DeepMind

大規模言語モデル（LLM）が半ばオープンソースで公開されると、すぐさま微調整が進み、スマートフォンやタブレットでの動作が確認された。界隈の課題とされたオンデバイスの軽量LLMがたった3週間で生まれてしまった。

Alpacaというオープンソースの70億パラメータの大規模言語モデル（LLM）がiPhone 14でローカルで動作した、とマサチューセッツ工科大学（MIT）の3年生、Kevin Kwokが22日（米国時間）にツイートした。

Just got Alpaca- a chat-tuned large language model- running locally on iPhone 14. Credit to @niw for iPad app, Caize Wu for mmap trick, and @ggerganov for llama.cpp. pic.twitter.com/sq2z1HV5VF
— Kevin Kwok (@antimatter15) March 23, 2023

AlpacaはMetaが2月に発表したLLaMAを、スタンフォード大学のコンピュータ科学者のグループが微調整したモデル。構築費用は「600ドル以下」であったと報告されている。

オンデバイスLLMはStable Diffusion の瞬間を迎えた、という表現が飛び交っている。Stable Diffusionは、同様に、一般人が基礎となるソースコードにアクセスすることで、自分のハードウェアで画像生成モデルを実行できるようにしたが、LLMでも個人のデバイスだけで実行可能となる瞬間を12月のChatGPTの公開から3ヶ月程度で達成してしまった。

Metaは2023年2月24日には新たなLLMである「LLaMA」を公開した。LLaMAはいくつかのサイズ（70億、130億、330億、650億パラメータ）で利用できるようになっていた。LLaMAのコードはオープンソースで公開されたが、「重み」（ニューラルネットワークに格納された学習済みの「知識」）は、資格を持つ研究者のみに公開されていた。（最終的にこれはひろゆきが所有するネット掲示板4chanなどでリークされた）。

この後は電撃的な速度で開発が進行した。3日後にリリースされた微調整版の対話モデルChatLLaMAは、「人間によるフィードバックを用いた強化学習 Reinforcement Learning from Human Feedback (RLHF)」を採用し、学習時間がChatGPTより15倍速いと主張した。

3月初旬、ViewRayのプリンシパル・サイエンティストのGeorgi Gerganovが軽量版（4ビット量子化でLLaMAの推論を実行する）の「llama.cpp」をGitHubで公開。Georgi GerganovはAppleシリコン搭載MacBookでllama.cppを動作させることに成功した。

3月12日、ソフトウェアアーキテクトコンサルタントのArtem Andreenkoは、llama.cppが4GB RAMのRaspberryPiで4ビット・70億パラメーターのLLaMAを実行できることを報告した。最小の単位（トークン）あたり10秒と遅い。その後も間髪入れず、iPad、iPhone、Androidでも小型モデルの実行が報告されている。

3月13日、スタンフォード大学がLLaMA 7Bのチューニング版、Alpaca 7Bをリリース。単なるチャットボットから指示に従うことができるボットに昇華した。このAlpacaがiPadとiPhoneで実行することも上述のKevin Kwokによって、最近確認された。Alpacaを個人が再現するためのガイドもあり、クラウドコンピューティングにかかる費用は100ドル以下となっている。

ArsTechnicaのAI・機械学習担当記者であるBenj Edwardsが時系列をまとめているので参照する。

2023年2月24日： Meta AIがLLaMAを発表。
2023年3月2日誰かがBitTorrentでLLaMAのモデルを流出させる。
2023年3月10日 Georgi GerganovがM1 Macで実行できるllama.cppを作成する。
2023年3月11日 Artem AndreenkoがRaspberry Pi 4、4GB RAM、（最小単位）あたり10秒を要する、LLaMA 7Bを（ゆっくり）実行した。
2023年3月12日 node.js 実行ツール NPX 上で LLaMA 7B を実行。
2023年3月13日誰かがPixel 6でllama.cppを実行させる。これも非常に遅い。
2023年3月13日、スタンフォードが、「OpenAIの"text-davinci-003 "と似た挙動を示すが、はるかに性能の低いハードウェアで動作する」LLaMA 7Bのチューニング版、Alpaca 7Bをリリース。

もちろん、現在のLLMのほとんどがそうであるように、LLaMAも幻覚、偏見、ステレオタイプという同じ問題に悩まされている。研究者たちは、ブラックボックスの安全性を確保するという問題をまだ解決していない。