突然注目を集めたAI画像生成Midjoureyを運営する社員10人の「零細企業」の裏側

各所で話題を呼んでいる「AI画像ジェネレーター」のMidjourneyは、社員数わずか10人の会社によって運営されている。作者のデイヴィッド・ホルツは会社を「自己資金で運営される研究所」と形容しており、すでに利益が出ているという。資金力が物を言う分野で異色の存在だ。

吉田拓史

05 8月 2022 — 7 min read

Midjourneyが製作した

Midjourneyは「テキストを入力するとAIが画像を出力してくれるサービス」で、現在、SNS上にはMidjourneyが生成した画像が溢れている。Midjourneyはチャットサービス「Discord」を通じて利用できる。新規ユーザーはDiscordのMidjourneyサーバーにログインし、様々な初心者チャンネルで他の多くのユーザーと一緒に画像を生成するためにテキストを送信できるのだ。

月額10ドルまたは30ドルの定額制にアップグレードすると、Discordアプリ内のMidjourneyボットにプライベートなダイレクトメッセージとしてテキストを送信でき、パブリックチャンネルでの他のユーザーから滝のようなやりとりを受けることなく画像を受け取ることができる。

Midjourneyは先鋭化するAI競争の中で非常に稀有な存在だ。このようなAIを開発するには、システムの学習に使用する数百万枚の画像へのアクセスと、膨大な計算能力が必要で、厄介かつ高価になるためだ。現在、トップクラスの画像生成AIは数十個しか存在しないと考えられている。GoogleにはImagenがあり、OpenAIにはDALL-Eがあり、Craiyonのような小さなプロジェクトも一握りある。

創業者ホルツの経歴

Midjourneyの運営会社の創業者兼代表のデイヴィッド・ホルツはフロリダで育ち、数学と物理を学んだ高校時代にはデザイン業を営んでいた。応用数学の博士課程に進んでいたが、2008年に休学してLeap Motionというハードウェア周辺機器の会社を共同設立した。翌年、マックス・プランク研究所で1年間学生研究員として過ごし、その後NASAラングレー研究所で2年間、大学院生研究員としてLiDAR、火星探査、大気科学に取り組み、博士号を取得した。

最終的に彼は、手の動きを追跡し、それをデバイスの入力に利用するハードウェアデバイスを開発したLeap Motionに集中することにした。「手のモーションキャプチャを行うハードウェアデバイスを販売し、ジェスチャーインターフェースの分野の多くを発明したようなものだ」という。彼は12年間この会社を経営し、退職時には約100人の従業員を抱えていた。

Midjourneyによって「火星の裏側のスペースコロニー」と入力して生成。4つの候補から高精細化する画像を選べる。

資金調達や上場を目的としていない「自己資金の研究所」

Midjourneyは「零細企業」のようだ。「10人くらいの規模です。自己資金でやっている。資家もいないし、金銭的な動機もない。ただ、自分たちが情熱を傾けられることに取り組み、楽しむためにここにいるようなものです。そして、さまざまなプロジェクトに取り組んでいました」とホルツは英テクノロジーメディアThe Registerのインタビューで語っている。

Midjourneyは、無料サービスから有料サービスにアップセルし、高収入の企業顧客を獲得して、株式公開や買収に至るような道筋には進んでいない。

「多額の資金を集めても、その事業や製品が何なのかわからず、長い間赤字が続くような新興企業とは我々は違う」とホルツはThe Registerに対して語っている。「私たちは、自己資金で運営される研究所のようなものだ。他人の金を1億ドルも失うようなことはない。正直なところ、すでに利益は出ているし、大丈夫だ」。

「これは非常にシンプルなビジネスモデルで、人々がそれを使って楽しいかどうかということです。そのうえで、私たちの食費と住居費をまかなえる程度のパーセンテージを上乗せしています。それが、私たちがやっていることです」。

将来的には、規模の拡大が問題になるかもしれない。ホルツによれば、現在Midjourneyは数十万人が利用しており、そのためには1万台のサーバーが必要だという。

「もし、このような技術を使おうとする人が1,000万人いたら、コンピュータの台数が足りなくなる。AIをやるための無料のサーバーは、世界に100万台もないんです。この技術が実際に使いたい人全員に行き渡る前に、世界のコンピュータはなくなってしまうと思います」

**「love,cyberpunk,ninja,ultra realistic」とMidjourneyに入力。下段㊨を高画素化することにした。**

テキストから画像を生成する技術の行方

このテキストから画像を生成する技術はどこから来て、将来どこに行くのか、そしてMidjourneyのビジョンはこの分野の他の企業とどう違うのか？

ホルツは米テックメディアThe Vergeのインタビューに対して「（画像生成ツールにつながるAIの）2つのブレークスルーがあったわけです。ひとつは言語を理解すること、もうひとつは画像を作成する能力です。そして、それらを組み合わせると、言語の理解を通じて画像を作ることができる。私たちは、それらの技術が出てくること、そして、それらが人間よりも画像を作るのが上手になること、そして、それが本当に速くなること、というトレンドを見ていました。今後1、2年のうちに、リアルタイムでコンテンツを作ることができるようになるでしょう。1秒間に30フレーム、高解像度。高価になるでしょうが、可能です。そして10年後には、巨大なAIプロセッサーを搭載したXboxが購入できるようになり、すべてのゲームが夢物語になります」

彼らは昨年9月に生の技術をテストすることから始めたばかりだという。「私たちは、人々が一緒に想像することがとても好きだということを発見し、『Midjourney』をソーシャルなものにした。最大級のDiscordコミュニティがあり、約100万人がこの共有スペースで共同イマジネーションを行っています」

改良

Midjourneyでは、最近、画質の強化が始まった。ホルツによると、同社のエンジニアは最近、ソフトウェアのバージョン3を導入し、ユーザーの活動や反応に基づくフィードバックループを初めて組み込んだという。

「このバージョン3では、ユーザーの活動や反応に基づくフィードバックループが初めて組み込まれました。私たちは、これ以上何もしていない。私たちは、ユーザーがどのような画像を好み、どのように使っているかというデータを取っただけです。そして、それが実際に良くなりました」

Midjourneyの技術スタックについて聞かれたホルツは、こう答えている。「いずれ、どのベンダーを使っているのか、具体的にプレスリリースするつもりです。何と言っても、何十億ものパラメータを持つ大規模なAIモデルを持っていることです。何十億枚もの画像で学習させています」

ホルツによると、ユーザーは毎日何百万枚もの画像を作成し、1秒間に10^15回（ペタオプス）の演算が行われているという。

「1枚の画像を作るのに、1,000兆回の演算が必要なのだ。Midjourneyをサービスと呼ぶなら、おそらく最も高価なサービスや製品と呼ぶようなものですが、間違いなく、普通の人がこれだけの計算量を使うサービスはこれまでありませんでした」

**「love,cyberpunk,ninja,ultra realistic」とMidjourneyに入力。高画素化されたもの。**

悪用対策

Midjourneyのサービス利用規約にはこうある。「アダルトコンテンツやグロは禁止です。視覚的にショッキングな内容や、不安を煽るようなコンテンツは避けてください。一部のテキスト入力は自動的にブロックします」

Open AIのテキスト画像生成AIのDALL-E 2は、コンテンツポリシーによって、より広範な同様の制限をユーザーに課している。

「ソーシャルメディアがない世界であれば、制限を設ける必要はないでしょう...Photoshopが発明されたとき、『ああ、何でも偽造できてちょっと怖いな』というようなことがあった」とホルツはThe Registerに対し語っている。「今は誰でもセンセーショナルなことをやって、基本的にそれで儲けることができる…だから、私たちはもう少し注意しなければならないと思う。ある時点で、人々は、『よし、私が作ることができる最も劇的で攻撃的で恐ろしいものは何だろう？』というふうになるだろう」

さらに、Midjourneyは13歳以上の人のためのソーシャルスペースを目指しているので、過激な内容や生々しい内容に対するルールが必要であると彼は言っている。また、この目的のために、同社は約40人のモデレーターがユーザーの作成する画像に目を光らせている。

AIは「水のようなもの」でうまく使えばチャンス

「今、人々はAIとは何かを完全に誤解しています。AIを虎のように見ているのです。虎は危険で、私を食べるかもしれないし、敵対するものです。しかし、水の流れる川の危険性と虎の危険性はまったく異なります。水は確かに危険ですが、その中で泳ぐこともできますし、ボートを作ることもできますし、ダムにして電気を作ることもできます…文明の原動力でもあり、水と暮らし、水と働く術を知る人間として、私たちはより良い生活を送ることができるのです…新しい水源を発見することは、本当に良いことです」とホルツはThe Vergeのインタビューで述べている。

「私たち人類は、新しい水源を発見したと思います。どうやって泳ぎを教えるか？　ボートを作るには？　どうやって水をせき止めるか？　溺れることを恐れる人たちから、波乗りする未来の子供たちへ、どうすればいいのか？　私たちは、水を作るのではなく、サーフボードを作っているのです。そこには、何か深い意味があると思うのです」