自然言語処理スタートアップがブーム: AIで最も進歩が早い分野
自然言語処理(NLP)スタートアップがブームだ。NLPはAIで最も進歩の早い分野で、基盤的なモデルを様々なユースケースに適応させる点において、既存ビジネスを塗り替える広範なビジネス機会が望まれている。
今日、最先端の自然言語処理(NLP)モデルを構築することは、非常に多くのリソースを必要とし、技術的に困難だ。最も大きな障害はその規模である。業界では、パラメータ数が1兆を超える巨大モデルが誕生しており、この空前の競争に参加するには、モデルをトレーニングするための莫大な計算資源を自前で持っているか、あるいはそれを賄うための大金を持っているかのいずれかが要件となる。
Alphabetの人工知能(AI)研究所であるDeepMindは、昨年末、言語モデルの大規模化は引き続き効果的と判断する論文を発表しており、この傾向は短期的には変わらなそうである。
これらを勘案すると、実際にゼロから独自のNLPモデルを構築している企業や研究者はごくわずかに留まる。その代わり、業界や用途を問わず、現在使われている最先端のNLPは、ほんの一握りの大規模な事前学習済み言語モデルのいずれかをベースにしている。
スタンフォード大学の研究者たちは最近、これらの事前学習済みモデルの影響力の大きさを認め、「基盤モデル」と名付けた。
彼らは、基盤モデルを、大規模なデータで学習され、下流の幅広いタスクやアプリケーションに適応(微調整またはコンテキスト内学習を使用)可能なあらゆるモデルと定義している。そのようなモデルはBERT、RoBERTa、T5、BART、GPT-3、CLIP、DALL-E、Codexなど枚挙に暇がないが、これらの台頭によってAIのパラダイムシフトが起こっているのは間違いない。
多くの場合、基盤モデルは、GoogleのBERTやFacebookのRoBERTaなど、株式公開されている大手テクノロジー企業によって構築され、オープンソース化されている。
OpenAIもまた、最先端のNLP技術を提供する重要な存在だ。その大規模言語モデルGPT-3は、おそらく今日最もよく知られ、広く使われている基礎モデルである。1750億パラメータで構成されるGPT-3は、生成モデル(名前のGは”generative”の略)であり、人間からのプロンプトに応答してオリジナルのテキストを生成する。OpenAIは、GPT-3をAPI経由で商用化し、アプリケーション全体で利用できるようにし、単語単位で課金している。
マイクロソフトはOpenAIに多額の投資を行い、深い提携関係にあることから、OpenAIは巨大企業の一部門と見なすことができる。
有望な新興企業
しかし、このカテゴリーには、若いスタートアップ企業にも大きなチャンスがあると考えられている。
Cohereはトロントに拠点を置く急成長中のスタートアップで、OpenAIと同様、最先端のNLP技術を開発し、APIを介して商用利用できるようにして、あらゆる産業で利用できるようにしている。Cohereの創業チームは、CEOのAidan GomezがNLPで使用されることの多い深層学習モデル「Transformer」の共同発明者の一人、CTOのNick Frosstが「深層学習の父」と呼ばれるジェフリー・ヒントン・トロント大教授の弟子である。同社は最近、ステルスから抜け出して1年足らずで、Tiger Globalから大規模なシリーズBの資金調達を発表した。
CohereはGPT-3のような生成モデルも作っているが、新規テキストの生成よりも、既存のテキストを分析するモデルに力を入れている。これらの分類モデルは、カスタマーサポートからコンテンツモデレーション、市場分析から検索まで、無数の商用ユースケースを持っている。
もう一つの代表的なNLPスタートアップは、Hugging Faceだ。Hugging Faceは、オープンソースのNLP技術のための大人気のコミュニティベースのリポジトリである。OpenAIやCohereとは異なり、Hugging Faceは独自のNLPモデルを構築していない。むしろ、オープンソースのNLPモデルの最新かつ最高のものを保存、提供、管理するプラットフォームであり、顧客がこれらのモデルを微調整し、大規模に展開することを可能にすることを企図している。
このほか、AI21 LabsとPrimerも注目すべきNLPスタートアップだ。
AI21はイスラエルに拠点を置き、独自の大規模言語モデルをAPI経由で提供し、顧客のアプリケーションを強化する(現在の最新モデルはJurassic-1と呼ばれ、GPT-3とほぼ同じサイズである)と同時に、これらのモデルの上に独自のアプリケーションを構築し、商品化する。現在のアプリケーション群は、読み書きを補強するツールに重点を置いている。
Primerは、この分野では古い競合会社で、Transformerが発明される2年前に設立された。同社は主に政府機関や防衛関連企業を顧客としている。
このカテゴリーには、特筆すべきワイルドカードがもう1つある。最近設立されたInflection AIは、リード・ホフマン、DeepMindの共同設立者であるムスタファ・スレイマン、そしてDeepMindの著名な研究者であるカレン・シモニャンという、目を見張るような設立チーム以外、まだほとんど知られていない(最近、大手AI研究所の人材を引き抜いていると報じられている)
同社は、ホフマンがジェネラル・パートナーを務めるベンチャーキャピタル(VC)のグレイロックでインキュベートされている。そのミッションは、「人間と機械の相互作用を根本的に再定義する」ことであり、人間が「人とのコミュニケーションに使うのと同じ自然な会話言語を使って、自分の考えやアイデアをコンピュータに伝える」ことを可能にすることだという。
文章校正AI
このカテゴリーで最も定評のある企業はGrammarlyである。2009年に設立されたGrammarlyは、長年にわたって最新のNLP技術に見事に対応してきた。同社は昨年末、130億ドルという途方もない企業価値で資金調達を行った。Grammarlyの製品は、ユーザーが文章を書く際に、スペル、文法、語法、言い回しなどを改善するための推奨事項をリアルタイムで自動的に提供する。
Textio、LitLingo、Writerの3社は、次世代の言語AIを使って、より的を絞ったユースケース向けに高度なGrammarlyのようなソリューションを構築する新規参入企業である。Textioは採用、LitLingoはビジネスコンプライアンスとリスク管理、Writerは全社的なスタイルとブランドの一貫性に重点を置いている。
TextioのAIは、何百万もの文章サンプルを学習させることで、求人広告やその他の採用関連コンテンツについて、ニュアンスの異なる洞察を与えることができる。例えば、あるフレーズは女性よりも男性の候補者に響く、ある単語は成長思考よりも固定思考を示唆する、ある比喩は応募者に排除的と映るかもしれない、といった具合だ。
LitLingoは、一方では、従業員のデジタルメッセージを監視し、積極的に訴訟や不要な公共の注意、例えば、独占禁止法、職場差別、証券違反や雇用法に関連するトリガー通信を防ぐためにリアルタイムのNLPを使用する。
CopyAIは、Sequoia、Tiger Global、Wing VCが支援するテネシー州のスタートアップで、カスタマイズされたマーケティングコピーを自動生成する。その仕組みは簡単だ。ユーザーは、自社の基本情報を入力し、ブログのタイトル、ウェブサイトの紹介文、Facebook広告、Instagramのハッシュタグなど、コンテンツの形式を選択する。そして、GPT-3を利用したCopyAIのNLPエンジンが、一度に10個のサンプル文章を出力し、ユーザーはそれを利用したり、アレンジしたり、インスピレーションを得たりすることができます。同社によると、NestleやMicrosoftなど、50万人以上のコンテンツマーケターが同社の技術を使用しているという。
機械翻訳に新規参入者が続々
世界で最も広く利用されているAI搭載の言語翻訳サービスは、Google翻訳だ。Transformer発祥の地であり、世界で最も先進的なAI組織であることから、当然のことながら、グーグルは近年、最新のNLP技術を取り入れ、翻訳サービスを大幅にグレードアップさせている。
しかし、変化の激しい言語翻訳の世界では、スタートアップ企業にも大きなチャンスが存在する。
Liltは、機械翻訳に取り組む注目すべき成長段階の企業である。同社は、Google翻訳のNLP研究者2人によって設立された。彼らは、Google翻訳のようなAIソリューションだけでは、企業や政府機関が求める堅牢性を備えた自動言語翻訳を実現することはできないと考えるようになったのである。
NeuralSpaceは、NLPの最先端の研究の大部分が英語で行われているが、世界の95%は英語を話せないという、シンプルだが強力な洞察に基づいて設立された。NeuralSpaceは、世界中のユーザーがアルメニア語、パンジャブ語、ズールー語などの「低リソース言語」でNLPモデルを構築できるノーコードNLPプラットフォームを提供している。
検索への挑戦も始まった
これらのNLPスタートアップはGoogleの検索の牙城に対する直接的、間接的な驚異となるだろう。2022年2月、「Google Search Is Dying」と題したブログ記事が話題になり、広く議論を呼び起こした。この投稿は、Googleの検索体験を改善し、ディスラプトする機会が新興企業に存在する、と主張している。
Googleに最も直接的に対抗している新規参入者は、You.comである。元Salesforceのチーフ・サイエンティストで、世界で最も広く引用されているNLP研究者の一人であるRichard Socherが設立したYou.comは、検索エンジンを根本から考え直そうとしている。水平方向のレイアウト、コンテンツの要約の重視、そして何よりもユーザーのデータ・プライバシーへの配慮を製品ビジョンに掲げている。
ZIR AIは、企業向けの新しい検索プラットフォームを構築している若いスタートアップである。ZIRは、最新の変換器ベースの技術を活用し、(キーワードベースのマッチングではなく)真の意味理解を備えた検索技術と、より洗練された多言語機能の開発を目指している。ZIRは、You.comと同様、元ClouderaのCTO/創業者のAmr Awadallahを含む創業者チームを擁している。
Algoliaは、エンタープライズサーチの老舗であり、2014年にY Combinatorを卒業して以来、3億ドル以上のベンチャー資金を調達している。Algoliaは、Slackのようなハイテク企業からフィナンシャル・タイムズのようなメディア企業まで、顧客が自社のウェブサイトやアプリケーションに検索体験を埋め込むことを可能にするAPIを提供している。
Constructor.ioは、この分野で急成長しているもう一つの競合で、特にeコマースの検索と発見にフォーカスしている。
Hebbiaは、企業がプライベートな非構造化データから洞察を引き出せるようにするための AI リサーチ・プラットフォームを構築している企業向け検索スタートアップだ。
上記の企業(Googleを含む)はすべてテキスト検索に重点を置いている。しかし、最近のAIの飛躍的な進歩により、スタートアップ企業にはテキスト以外の対象に検索ツールを構築する機会が存在するようになり、ビデオほど大きな機会を象徴する新しいモダリティはない。
動画検索・即時翻訳
動画は、私たちのデジタルライフの主要なメディアとなった。今日、インターネット上のトラフィックの実に80%が動画だ。しかし、このようなビデオコンテンツから、ある特定の瞬間、コンセプト、ディスカッションを探し出す効果的な方法はない。ソーシャルメディアからストリーミングコンテンツまで、デジタル資産管理から職場の生産性向上まで、コンテンツ調整からクラウドストレージまで、ビデオ検索の商用利用可能なケースは基本的に無限大だ。
次世代のビデオ検索機能を構築しているエキサイティングなスタートアップのひとつが、今月初めにシード資金調達を発表したTwelve Labsである。Twelve Labsは、最先端のNLPとコンピュータ・ビジョンを融合させ、動画内の正確な意味検索を可能にする。
BLANCは、AIを活用した動画翻訳を提供している。そのAIプラットフォームは、ある言語で話された対話のあるビデオを取り込み、AIを適用してそのビデオを別の言語の対話で素早く再現し、話し手の唇の動きが自然に見えるようにするものだ。これにより、すべての人が世界人口の95%に言語障壁なしでリーチすることが可能になる、と同社は言っている。
KUDOは、動画翻訳サービスを提供する老舗だ。現在、KUDOのプラットフォームは、人間の通訳者に頼って、インターネット上でリアルタイムに翻訳を配信している。しかし、同社は、そのプラットフォームがますますAIによって強化される未来を思い描いています。この意味で、KUDOは興味深い典型例である。成熟した非AIファーストのビジネスが、膨大な価値のある独自のデータセットを活用することで、自社の製品にさらなるAIを注入しようとしているのである。
ヘルスケア
ヘルスケアほど言語AIの使用事例の幅が広い業界はない。また、ヘルスケアに特化したAIスタックやデータパイプラインは、HIPAA(Health Insurance Portability and Accountability Act)法などの規制に反映されたヘルスケアにおける厳しいデータプライバシー要件を考慮すると、理にかなっていると言える。また、ヘルスケアの世界には専門的な言語や専門用語が多いため、ヘルスケアに特化したNLPモデルが重要になる。
近年、スタートアップの活動が活発化している分野のひとつに、患者のスクリーニングやケアナビゲーションのための会話型AI、つまり、医療システムへの患者の「デジタル玄関口」として機能するチャットボットがある。
この領域でソリューションを構築している有望なスタートアップには、GYANT、Curai、Buoy Healthが含まれる。
関連するアプリケーションとして、メンタルヘルス用のチャットボットがあり、このユースケースはパンデミック時に大きな成長を遂げた。これらの「AIセラピスト」は、個人が自分の人生や問題を相談するために、モバイルアプリを介して自由に利用でき、即座に対応することができる。
メンタルヘルス・チャットボット技術を構築している代表的なスタートアップはWoebotで、NEAやテマセクなどの投資家からこれまでに1億5,000万ドル近くを調達している。Google Brainの共同設立者で、元百度チーフサイエンティスト、スタンフォード大学教授であるアンドリュー・ンがWoebotの取締役会長を務めている。Woebotは、その会話型AIが、認知行動療法(CBT)を含む臨床的に検証された治療アプローチに基づいていることを強調している。
また、ヘルスケアのデータは信じられないほど乱雑に扱われている。関連する臨床情報や医薬品情報は、一般的に自由形式で、整理されておらず、サイロ化した電子健康記録(EHR)から編集が難しいPDFまで、異種のデータソースに分散している。このようなデータから手作業でインサイトを抽出することは、時間とコストがかかる作業だ。
DigitalOwlは、機械学習を応用したイスラエルの新興企業で、医療保険会社が医療記録のレビューを自動化し、保険金請求をより効率的かつ正確に処理できるようにすることを目的としている。DigitalOwlは、同社の技術により、典型的な医療事例を3〜5分で分析し要約することができ、人間の審査官が3〜4時間かかるのに対し、医学的に関連するデータポイントを2倍多く特定することができると主張している。
非構造化医療データの整理に注力しているもう一つの興味深い企業は、ScienceIOである。すぐに使えるAPIを提供するScienceIOの製品は、顧客の既存のワークフローに自然にフィットし、ヘルスケアプロバイダーやライフサイエンス企業での商用利用が期待されている。同社は2000万件の文書と22億件のラベルでNLPモデルを訓練している。
ヘルスケア分野では、Infinitusも注目すべき急成長中のスタートアップだ。Infinitusは、プロバイダー、保険会社、薬局の日常的な電話を自動化する音声AI技術(同社は「VoiceRPA」と呼んでいる)を提供している。Infinitusの製品は、「会話型音声アシスタント」の項で述べたReplicantやAI Rudderのようなプレーヤーと直接比較することができるが、ヘルスケアに特化して構築されている点が異なる。同社は昨年、一流のベンチャーキャピタルからシリーズA、シリーズBと立て続けに資金調達を行った。
チャットボットのツールとインフラ
テキストメッセージ、ウェブチャット、ソーシャルメディアなどを通じて企業やブランドとデジタルコミュニケーションをとる際、人間ではなく、自動エージェントが対応することが多くなっている。
このようなAIを搭載した会話型インターフェースは、一般にチャットボットとして知られている。しかし、5年ほど前にチャットボット技術のハイプ・サイクルが早すぎたため、この用語とその複雑な意味合いを避けたいと考えるスタートアップ企業も現在ではある。
業界を問わず、企業がチャットボットを作成し、運用するための技術とインフラを提供する有望な新興企業群が出現している。
これらの競合企業の中で最も資金力があるのは、トロントに拠点を置き、優良ベンチャーキャピタルから2億ドル近くを調達したスタートアップ、Ada Supportだ。Adaは、ウェブチャット、SMS、ソーシャルメディアなどのテキストベースのチャネルで、カスタマーサポートやセールスにおける企業のための自動インタラクションを強化し、必要に応じて人間のエージェントにインテリジェントにループさせる。同社は、この技術によって顧客の待ち時間を98%削減できると主張している。Zoom、Shopify、Verizon、Facebook などの大手顧客を持ち、Adaは年間10億件以上の顧客との対話をサポートしている。
この分野のもう一つの代表的な企業はRasaである。Adaの競合であるRasaの製品は、より技術的に精通したユーザーを対象としており、チャットボットの設定可能性に重点を置いている。RasaのAIスタックはオープンソース化されており、600人以上の貢献者と1000万回以上のダウンロードがある。このオープンソース戦略により、Rasaの顧客は、構築・展開する会話型AIインターフェースに対してより高い透明性と制御性を得ることができる。
この分野の他の注目すべきスタートアップには、NLPの著名人であるクリストファー・マニングをアドバイザーに迎え、資本力のある競合企業であるForethought、銀行向けに特別に作られた会話型AIプラットフォームのClinc、eコマースに焦点を当てたThankfulがある。
セールスインテリジェンス
営業活動もまた新たなフロンティアと目されている。ビデオ通話、電話、電子メールのやりとり、CRM、その他のコミュニケーション・チャネルから膨大な量の非構造化データを取り込むことで、今日の言語AIは、営業担当者のパフォーマンスと改善のための行動に関するインサイトを抽出することができる。
このカテゴリーで独走しているのが、6億円近いベンチャー資金を調達したGongだ。同社によると、同社の技術は営業担当者一人当たりの平均売上を27%向上させ、顧客にとって膨大なROIをもたらすという。Gongはすでに驚異的な収益成長率と優良顧客の長いリストを持っている。
Gongの後塵を拝している若いスタートアップがいくつか出現しているが、まだ成功している企業はない。昨年シードラウンドを調達したAircoverや、2019年にY Combinatorから登場したWingmanがその例だ。営業電話が終わった後にしか分析を提供しないGongとは異なり、これらのスタートアップはいずれも営業担当者にリアルタイムで通話中のコーチングを提供している。また、Gongは大企業への販売で大きな成功を収めたが、Wingmanは代わりに中小企業をターゲットにしている。
従業員エンゲージメント
電子メールのパスワードのリセット方法、企業向けソフトウェアのサブスクリプションの費用負担、健康保険の加入方法、会社の休暇制度など、世界中のあらゆる企業で、従業員は毎日、助けを必要とする日常的な質問をしている。
会話型AIプラットフォームは、こうした従業員からのサポート依頼の多くを自動的に処理して解決することができるため、人手を介する必要性が減り、組織は全体として膨大な時間と費用を節約することができる。
このカテゴリの主要プレイヤーはMoveworksで、昨年Tiger Globalから2億ドルのシリーズCを調達している。また、資金力のある競合としてEspressiveがある。Espressiveは、自社のチャットボットプラットフォームにより、全従業員のヘルプデスクチケットの50%から70%を人間の手を借りずに解決し、従業員1人当たり年間1週間分以上の生産性を回収できると主張している。
市場規模を考えると、同様の製品を提供する小規模なスタートアップが数多く出現している。その中でも注目すべきは、ベイエリアに拠点を置くRezolve.aiである。
会話型音声アシスタント
Googleが2018年半ばに新しいDuplex技術をデビューさせたとき、世間を驚かせた。それから4年、この技術は実用性が向上している。
Duplexに続いて、ニュアンスの異なる自動電話会話を可能にする音声AI技術を開発したスタートアップは数少ない。GoogleのDuplexは消費者向けのツールだが(現在ではGoogle Mapなどのアプリで広く利用できる)、これらのスタートアップの市場開拓の努力は企業に焦点を合わせている。そして、このテクノロジーにとって、コンタクトセンターほど大きなビジネスチャンスはない。
コールセンターは、目立たないバックオフィス機能でありながら、2020年には米国で3,400億ドル、2027年には5.000億ドル規模となり、驚異的な巨大市場になっていると推定されている。
Replicantは、音声AIを応用してコンタクトセンターのエージェント活動を自動化し、顧客の待ち時間を短縮して企業のコストを削減する有望なスタートアップの1つ。Replicantは、HimsやOpenStoreなどの企業を輩出した注目のスタートアップ・スタジオ、Atomicからスピンアウトした。
Duplexと同様、Replicantの音声AIは人間と同じように自然に聞こえるように設計されている(社名は、映画『ブレードランナー』に登場する人間と見分けがつかない生体工学ロボットへのオマージュ)。Replicantの技術は、課金、顧客調査、定期購入の更新など、コールセンターの幅広いユースケースに対応できるよう装備されている。AIが複雑な会話に遭遇し、自力では解決できない場合は、人間のエージェントを呼び出す。
Replicantの競合に近いのは、シンガポールに拠点を置くAI Rudderで、Sequoia、Coatue、Tiger Globalから5000万ドルを調達したばかりである。
AI Rudderは、金融サービスや電子商取引など、コールセンターを多用する業界を顧客としている。パンデミックはAI Rudderの急成長を促し、その収益は昨年4倍になった。同社のAIシステムは、さまざまな言語を話すことができるだけでなく、電話の相手に応じて適切な地域アクセントを採用することができる。
ReplicantやAI Rudderなどのスタートアップは、コールセンターの基本的な会話を自動化する音声AI技術を提供しているが、別の企業グループは、人間のコールセンターエージェント向けに会話コーチングと分析プラットフォームを提供している。
先月、コンタクトセンターAIスタートアップのUniphoreは、NEAから4億ドルのラウンドを調達し、同社の価値を25億ドルと評価した。その数週間後、直接の競合であるCrestaは、Tiger Global主導の8,000万ドルの資金調達を、16億ドルの評価額で発表した。これらの資金調達により、これら2つの新興企業は、今日最初のNLPユニコーンの仲間入りを果たしたのである。市場機会の大きさから、今後もこの分野へのVCの資金流入が予想される。
有名研究者Sebastian Thrun(Google XとGoogleの自動運転車プログラムの作成者)と彼のスタンフォード博士課程の学生2人が共同設立したCrestaは、このカテゴリで最も血統のある競合企業である。Crestaは、電話やテキストチャットにまたがるオムニチャネルプラットフォームで、コンタクトセンターのエージェントに、会話後ではなく、リアルタイムでパーソナライズされたコーチングを提供することに重点を置いている。
Uniphoreは、Crestaよりも10年近く長い歴史を持ち、収益の観点からもはるかに進んでいる。同社は、来月末までに年間経常収益が1億ドルに達する見込みである。Uniphoreはインドで設立され、設立から10年間はインドに拠点を置いていたが、最近ベイエリアに本社を移した。
コンテンツ審査
誤報、ネットいじめ、ヘイトスピーチ、詐欺など、有害なオンラインコンテンツは、今日のデジタル社会で大規模かつ深刻な問題になっている。言語AIの最新の進歩は、この闘いにおける新たなツールとして展開することができる。
そして、この問題の規模を考えると、市場機会は膨大であることに間違いはない。Facebookだけでも、2016年から2021年の間にコンテンツモデレーションに130億ドルを費やし、この問題に取り組むためにAccentureに年間5億ドルを支払うと報告されている。
Spectrum Labsは、AIをオンライン有害性対策に適用する有望なスタートアップのひとつで、マーケットプレイス、ソーシャルプラットフォーム、ゲームサービス、デートアプリケーションの4つの業界にフォーカスしています。同社によると、同社の技術により、オンラインプラットフォームは有害行為の検出率を10倍に高め、コンテンツのモデレーション作業を平均50%削減することができるという。
このカテゴリーでもう一つ興味深いのは、Logicallyだ。英国に拠点を置くLogicallyは、誤報と偽情報に焦点を当てている(後者は、意図的に人を欺くために流される前者のサブセットである)。同社のプラットフォームは、AIシステムと連携して働く専門的な人間のレビュアーの大規模なチームに依存しています。ロジックのクライアントの多くは政府であり、国家安全保障、選挙の完全性、COVID-19の誤報などの問題に同社の技術を利用している。また、TikTokも顧客としてカウントされている。
参考文献
- Rishi Bommasani et al. On the Opportunities and Risks of Foundation Models. arXiv:2108.07258 cs.LG