突然注目を集めたAI画像生成Midjoureyを運営する社員10人の「零細企業」の裏側

各所で話題を呼んでいる「AI画像ジェネレーター」 のMidjourneyは、社員数わずか10人の会社によって運営されている。作者のデイヴィッド・ホルツは会社を「自己資金で運営される研究所」と形容しており、すでに利益が出ているという。資金力が物を言う分野で異色の存在だ。

突然注目を集めたAI画像生成Midjoureyを運営する社員10人の「零細企業」の裏側
Midjourneyが製作した

各所で話題を呼んでいる「AI画像ジェネレーター」 のMidjourneyは、社員数わずか10人の会社によって運営されている。作者のデイヴィッド・ホルツは会社を「自己資金で運営される研究所」と形容しており、すでに利益が出ているという。資金力が物を言う分野で異色の存在だ。


Midjourneyは「テキストを入力するとAIが画像を出力してくれるサービス」で、現在、SNS上にはMidjourneyが生成した画像が溢れている。Midjourneyはチャットサービス「Discord」を通じて利用できる。新規ユーザーはDiscordのMidjourneyサーバーにログインし、様々な初心者チャンネルで他の多くのユーザーと一緒に画像を生成するためにテキストを送信できるのだ。

月額10ドルまたは30ドルの定額制にアップグレードすると、Discordアプリ内のMidjourneyボットにプライベートなダイレクトメッセージとしてテキストを送信でき、パブリックチャンネルでの他のユーザーから滝のようなやりとりを受けることなく画像を受け取ることができる。

Midjourneyは先鋭化するAI競争の中で非常に稀有な存在だ。このようなAIを開発するには、システムの学習に使用する数百万枚の画像へのアクセスと、膨大な計算能力が必要で、厄介かつ高価になるためだ。現在、トップクラスの画像生成AIは数十個しか存在しないと考えられている。GoogleにはImagenがあり、OpenAIにはDALL-Eがあり、Craiyonのような小さなプロジェクトも一握りある。

創業者ホルツの経歴

Midjourneyの運営会社の創業者兼代表のデイヴィッド・ホルツはフロリダで育ち、数学と物理を学んだ高校時代にはデザイン業を営んでいた。応用数学の博士課程に進んでいたが、2008年に休学してLeap Motionというハードウェア周辺機器の会社を共同設立した。翌年、マックス・プランク研究所で1年間学生研究員として過ごし、その後NASAラングレー研究所で2年間、大学院生研究員としてLiDAR、火星探査、大気科学に取り組み、博士号を取得した。

最終的に彼は、手の動きを追跡し、それをデバイスの入力に利用するハードウェアデバイスを開発したLeap Motionに集中することにした。「手のモーションキャプチャを行うハードウェアデバイスを販売し、ジェスチャーインターフェースの分野の多くを発明したようなものだ」という。彼は12年間この会社を経営し、退職時には約100人の従業員を抱えていた。

Midjourneyによって「火星の裏側のスペースコロニー」と入力して生成。4つの候補から高精細化する画像を選べる。

資金調達や上場を目的としていない「自己資金の研究所」

Midjourneyは「零細企業」のようだ。「10人くらいの規模です。自己資金でやっている。資家もいないし、金銭的な動機もない。ただ、自分たちが情熱を傾けられることに取り組み、楽しむためにここにいるようなものです。そして、さまざまなプロジェクトに取り組んでいました」とホルツは英テクノロジーメディアThe Registerのインタビューで語っている。

Midjourneyは、無料サービスから有料サービスにアップセルし、高収入の企業顧客を獲得して、株式公開や買収に至るような道筋には進んでいない。

「多額の資金を集めても、その事業や製品が何なのかわからず、長い間赤字が続くような新興企業とは我々は違う」とホルツはThe Registerに対して語っている。「私たちは、自己資金で運営される研究所のようなものだ。他人の金を1億ドルも失うようなことはない。正直なところ、すでに利益は出ているし、大丈夫だ」。

「これは非常にシンプルなビジネスモデルで、人々がそれを使って楽しいかどうかということです。そのうえで、私たちの食費と住居費をまかなえる程度のパーセンテージを上乗せしています。それが、私たちがやっていることです」。

将来的には、規模の拡大が問題になるかもしれない。ホルツによれば、現在Midjourneyは数十万人が利用しており、そのためには1万台のサーバーが必要だという。

「もし、このような技術を使おうとする人が1,000万人いたら、コンピュータの台数が足りなくなる。AIをやるための無料のサーバーは、世界に100万台もないんです。この技術が実際に使いたい人全員に行き渡る前に、世界のコンピュータはなくなってしまうと思います」

「love,cyberpunk,ninja,ultra realistic」とMidjourneyに入力。下段㊨を高画素化することにした。

テキストから画像を生成する技術の行方

このテキストから画像を生成する技術はどこから来て、将来どこに行くのか、そしてMidjourneyのビジョンはこの分野の他の企業とどう違うのか?

ホルツは米テックメディアThe Vergeのインタビューに対して「(画像生成ツールにつながるAIの)2つのブレークスルーがあったわけです。ひとつは言語を理解すること、もうひとつは画像を作成する能力です。そして、それらを組み合わせると、言語の理解を通じて画像を作ることができる。私たちは、それらの技術が出てくること、そして、それらが人間よりも画像を作るのが上手になること、そして、それが本当に速くなること、というトレンドを見ていました。今後1、2年のうちに、リアルタイムでコンテンツを作ることができるようになるでしょう。1秒間に30フレーム、高解像度。高価になるでしょうが、可能です。そして10年後には、巨大なAIプロセッサーを搭載したXboxが購入できるようになり、すべてのゲームが夢物語になります」

彼らは昨年9月に生の技術をテストすることから始めたばかりだという。「私たちは、人々が一緒に想像することがとても好きだということを発見し、『Midjourney』をソーシャルなものにした。最大級のDiscordコミュニティがあり、約100万人がこの共有スペースで共同イマジネーションを行っています」

改良

Midjourneyでは、最近、画質の強化が始まった。ホルツによると、同社のエンジニアは最近、ソフトウェアのバージョン3を導入し、ユーザーの活動や反応に基づくフィードバックループを初めて組み込んだという。

「このバージョン3では、ユーザーの活動や反応に基づくフィードバックループが初めて組み込まれました。私たちは、これ以上何もしていない。私たちは、ユーザーがどのような画像を好み、どのように使っているかというデータを取っただけです。そして、それが実際に良くなりました」

Midjourneyの技術スタックについて聞かれたホルツは、こう答えている。「いずれ、どのベンダーを使っているのか、具体的にプレスリリースするつもりです。何と言っても、何十億ものパラメータを持つ大規模なAIモデルを持っていることです。何十億枚もの画像で学習させています」

ホルツによると、ユーザーは毎日何百万枚もの画像を作成し、1秒間に10^15回(ペタオプス)の演算が行われているという。

「1枚の画像を作るのに、1,000兆回の演算が必要なのだ。Midjourneyをサービスと呼ぶなら、おそらく最も高価なサービスや製品と呼ぶようなものですが、間違いなく、普通の人がこれだけの計算量を使うサービスはこれまでありませんでした」

「love,cyberpunk,ninja,ultra realistic」とMidjourneyに入力。高画素化されたもの。

悪用対策

Midjourneyのサービス利用規約にはこうある。「アダルトコンテンツやグロは禁止です。視覚的にショッキングな内容や、不安を煽るようなコンテンツは避けてください。一部のテキスト入力は自動的にブロックします」

Open AIのテキスト画像生成AIのDALL-E 2は、コンテンツポリシーによって、より広範な同様の制限をユーザーに課している。

「ソーシャルメディアがない世界であれば、制限を設ける必要はないでしょう...Photoshopが発明されたとき、『ああ、何でも偽造できてちょっと怖いな』というようなことがあった」とホルツはThe Registerに対し語っている。「今は誰でもセンセーショナルなことをやって、基本的にそれで儲けることができる…だから、私たちはもう少し注意しなければならないと思う。ある時点で、人々は、『よし、私が作ることができる最も劇的で攻撃的で恐ろしいものは何だろう?』というふうになるだろう」

さらに、Midjourneyは13歳以上の人のためのソーシャルスペースを目指しているので、過激な内容や生々しい内容に対するルールが必要であると彼は言っている。また、この目的のために、同社は約40人のモデレーターがユーザーの作成する画像に目を光らせている。

AIは「水のようなもの」でうまく使えばチャンス

「今、人々はAIとは何かを完全に誤解しています。AIを虎のように見ているのです。虎は危険で、私を食べるかもしれないし、敵対するものです。しかし、水の流れる川の危険性と虎の危険性はまったく異なります。水は確かに危険ですが、その中で泳ぐこともできますし、ボートを作ることもできますし、ダムにして電気を作ることもできます…文明の原動力でもあり、水と暮らし、水と働く術を知る人間として、私たちはより良い生活を送ることができるのです…新しい水源を発見することは、本当に良いことです」とホルツはThe Vergeのインタビューで述べている。

「私たち人類は、新しい水源を発見したと思います。どうやって泳ぎを教えるか? ボートを作るには? どうやって水をせき止めるか? 溺れることを恐れる人たちから、波乗りする未来の子供たちへ、どうすればいいのか? 私たちは、水を作るのではなく、サーフボードを作っているのです。そこには、何か深い意味があると思うのです」

エンジェル投資募集中

弊社もまた零細企業です。社員は吉田一人で役員報酬は月8万円に過ぎません。50万円から投資可能なのでぜひ。

エンジェル投資を募集中です
株式会社アクシオンテクノロジーズ代表取締役社長の吉田拓史です。次世代ビジネスニュースメディア「アクシオン」を運営する弊社はエンジェル投資を募集しております。

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史
新たなスエズ危機に直面する米海軍[英エコノミスト]

新たなスエズ危機に直面する米海軍[英エコノミスト]

世界が繁栄するためには、船が港に到着しなければならない。マラッカ海峡やパナマ運河のような狭い航路を通過するとき、船舶は最も脆弱になる。そのため、スエズ運河への唯一の南側航路である紅海で最近急増している船舶への攻撃は、世界貿易にとって重大な脅威となっている。イランに支援されたイエメンの過激派フーシ派は、表向きはパレスチナ人を支援するために、35カ国以上につながる船舶に向けて100機以上の無人機やミサイルを発射した。彼らのキャンペーンは、黒海から南シナ海まですでに危険にさらされている航行の自由の原則に対する冒涜である。アメリカとその同盟国は、中東での紛争をエスカレートさせることなく、この問題にしっかりと対処しなければならない。 世界のコンテナ輸送量の20%、海上貿易の10%、海上ガスと石油の8~10%が紅海とスエズルートを通過している。数週間の騒乱の後、世界の5大コンテナ船会社のうち4社が紅海とスエズ航路の航海を停止し、BPは石油の出荷を一時停止した。十分な供給があるため、エネルギー価格への影響は軽微である。しかし、コンテナ会社の株価は、投資家が輸送能力の縮小を予想している

By エコノミスト(英国)