ニュースレター

企業価値280億ドルのデータ基盤新興企業DatabricksがIPO視野

データ基盤新興企業Databricksは史上最大のソフトウェアIPOとなったSnowflakeと同様の巨大IPOになると期待されている。CEOのAli Ghodsiが英テクノロジーメディアThe Registerに今年中に「IPO準備」を整えることを目標としていると語った。

吉田拓史

07 6月 2021 — 6 min read

平日朝6時発行のAxion Newsletterは、デジタル経済アナリストの吉田拓史（@taxiyoshida）が、最新のトレンドを調べて解説するニュースレターです。同様の趣旨のポッドキャストもあります。登録は右上の「Subscribe」ボタンからFreeプランでサインアップいただき、確認メールの「Sign in to Axion デジタル経済メディア」ボタンをクリックください。

要点

データ基盤新興企業Databricksは史上最大のソフトウェアIPOとなったSnowflakeと同様の巨大IPOになると期待されている。

データ基盤新興企業Databricks CEOのAli Ghodsiが英テクノロジーメディアThe Registerに今年中に「IPO準備」を整えることを目標としていると語った。昨年、Databricksは、昨年、セールスフォースとバークシャー・ハサウェイの支援を受けて取引初日に2倍以上に上昇し、史上最大のソフトウェア企業IPOとなったSnowflakeと同様の巨大IPOになると期待されている。

Databricksは、IPOに向けて、同社は2月に10億ドルの投資ラウンドを実施し、AWS、Microsoft、Google、Andreessen Horowitz（Netscapeの創業者Marc AndreessenのVC）、Salesforce Venturesが出資した。この投資により、企業価値は280億ドルに達した。

Databricksのモデルはうまく機能している。同社は2020年に4億2,500万ドルの年間経常収益（ARR）を達成した。この数字は、前年比で75％増加しており、2020年第3四半期末の3億5000万ドルからも増加している。同社の企業価値はARRの約65倍とかなり高い水準に到達している。

Databricksは、データウェアハウスとデータレイクの長所を組み合わせて、データとAIのためのオープンで統一されたプラットフォームを提供している。現在、Shell、Comcast、CVS Health、HSBC、T-Mobile、Regeneronなど、世界中の5,000以上の組織がDatabricksを利用して、大規模なデータエンジニアリング、コラボレーティブなデータサイエンス、フルライフサイクルの機械学習、ビジネスアナリティクスを実現している。

Databricksは、2009年に博士論文としてSparkを開発し、後にクラスタマネージャのApache Mesosを共同開発したコンピュータサイエンティストのMatei Zahariaをはじめ、カリフォルニア大学バークレー校のAMPLABプロジェクトの研究者たちが2013年に共同設立した会社。

現在もカリフォルニア大学機関の非常勤助教授を務めている共同創業者のGhodsiは、元々はスウェーデンのKTH Royal Institute of Technologyで博士号を取得し、インターネット上でデータを転送・保存するためのピアツーピアシステムを開発するPeerialism AB社（ストックホルム）を共同設立していた。

彼は2009年にカリフォルニア大学バークレー校に客員研究員として赴任し、分散システム、データベースシステム、ネットワークの研究プロジェクトに取り組んだ。この間、Apache MesosおよびApache Sparkプロジェクトの立ち上げに貢献した。2013年にはSparkを商品化するDatabricksを共同設立し、2016年には最高経営責任者に就任している。

データウェアハウス、データレイク、

インターネットの普及に伴い、企業には顧客データの洪水が起きた。データウェアハウスは、企業の構造化データを一箇所に集約するために生まれた。データウェアハウスはその目的を十分に果たしていたが、時が経つにつれ、このテクノロジーの欠点が明らかになった。それは、非構造化の生データを保存できないこと、高価な専用ハードウェアとソフトウェア、ストレージと計算能力が密接に結びついているため、スケールアップが難しいことなどが挙げられる。

2000年代初頭に「ビッグデータ」が台頭してくると、企業は1台のコンピュータでは考えられないようなデータセットを分析する必要が出てきた。分析に必要なデータはきちんと構造化されているとは限らず、非構造化データを活用する方法も求められていた。ビッグデータ分析を可能にし、データウェアハウスのコストやベンダーロックインへの懸念を払拭するために、オープンソースの分散型データ処理技術としてApache Hadoopが登場した。

Hadoopの登場は、ビッグデータ分析にとって画期的な出来事だった。その理由は主に2つある。まず、一部の企業では、高価なプロプライエタリのデータウェアハウスソフトウェアから、無料のオープンソースであるHadoopへの移行が考えられるようになったことだ。第二に、これまで不可能だった大量の非構造化データの分析が可能になった。Hadoopが登場する前は、データウェアハウスを持つ企業は通常、高度に構造化されたデータしか分析できなかったが、今では半構造化データや非構造化データを含む、より大きなデータプールから価値を引き出すことができる。生のデータを分析できるようになると、そのデータを収集・保存することがますます重要になり、これが現在のデータレイクの基礎となっている。

Hadoopが登場して間もなく、Apache Sparkが登場した。Sparkは、MapReduceのアイデアをさらに発展させ、ビッグデータの分散処理を可能にする強力で汎用的なフレームワークを提供した。その理由は、使いやすさやベンチマークテストの結果が良かったことに加え、実用性を高める機能が追加されたことで、データ実務者の間でSparkの人気が高まったからだ。例えば、Sparkのインタラクティブ・モードは、データサイエンティストが巨大なデータセットに対して探索的なデータ分析を行うことを可能にし、それまでのMapReduceのようなETLジョブを超えたものにした。また、機械学習モデルを大規模に学習したり、SQLを使ってビッグデータを照会したり、Spark Streamingを使ってリアルタイムデータを高速に処理したりすることが可能になり、応用の可能性が大きく広がった。

Databricksのビジネスの拡大

Databricksのビジネスにとって橋頭堡となったのは、2019年に発表したオープンソースプロジェクトであるDelta Lakeだった。データレイクの信頼性とアドレス性の問題に対処するために設計されたDelta Lakeは、オープンソースに深く根ざしており、機械学習やその他のデータサイエンスのユースケースのためにデータレイクに信頼性をもたらすことを目的とし、既存のデータレイクの上で動作する。Delta Lakeは、データ投入・格納・処理エンジンをつなぐ新しいレイヤーとなり、これまでのデータレイクの欠点を補う。

従来のデータレイクでは、取り込んだデータを制御できずに、データ品質の問題が生じることがあったが、Delta Lakeは、リアルタイムストリーミングを含むあらゆるデータに対して信頼性の高い単一のデータソースの提供を可能にするのだ。さらに、Delta Sharingは、安全なデータ共有のための業界初のオープンプロトコルで、データがどこにあるかに関わらず、他の組織とデータを簡単に共有することができるという。さらに、MLflowは、機械学習のライフサイクルをエンドツーエンドで管理するためのオープンソースのプラットフォームで、近年、注目を浴びている機械学習のオペレーションを円滑化する仕組みだ。

これらによって、Databricksは企業が高度なデータ分析や機械学習に足を踏み入れるのを容易にしている。

Databricksはその後、データレイクとデータウェアハウスの融合を指す「レイクハウス」という言葉を外部にむけて使うようになった。2020年6月には、データサイエンティストやアナリストがデータを可視化し、インタラクティブなダッシュボードを構築できるように設計されたオープンソースツールであるRedashを買収し、自社製品へ統合した。

2020年11月に入り、Databricksは、データアナリストやデータサイエンティストがDatabricks内でデータレイクのデータを直接クエリできるSQLネイティブなインターフェイスで、既存のBIツールを補完するDatabricks SQLを発表した。また、Scalaで書かれたSparkをC++に書き換えベクトル化されたハイパフォーマンスクエリ実行エンジンであるDelta Engineも採用している。Delta Lakeの中で、Databricksは、Spark SQLワークフローを高速化するために設計されたSpark互換の実行エンジン「Photon」を独自に導入した。

さらに先週、Sparkの一般的な用途であるETL（抽出・変換・格納）を容易にすることを目的としたDelta Live Tablesを追加した。この製品について、低レベルの命令を抽象化し、多くの潜在的なエラーの原因を取り除く、とDatabricksは説明している。

一方、Unity Catalogは、すべてのクラウドデータレイクにおいて、構造化データと非構造化データの両方にアクセスするための1つのシンプルなインターフェイスを提供するように設計されており、ユーザーがDatabricks Lakehouse Platform上でデータのシングルビューを得られるようにすることを目指している。

参考文献

History and evolution of data lakes, Databricks.

ニュースレター登録とアカウント作成

ニュースレターの登録は記事の下部にある「Sign up for more like this」か右上の「Subscribe」ボタンをクリックし、登録画面で名前とメールアドレスを記入後、Freeプランから「Continue」に進んでください。記入したメールアドレスに「🔑 Secure sign in link for Axion デジタル経済メディア」という認証用のメールが届きます。その「Sign in to Axion デジタル経済メディア」をクリック頂きますと、登録が完了します。

Special thanks to supporters !

Shogo Otani, 林祐輔, 鈴木卓也, Mayumi Nakamura, Kinoco, Masatoshi Yokota, Yohei Onishi, Tomochika Hara, 秋元善次, Satoshi Takeda, Ken Manabe, Yasuhiro Hatabe, 4383, lostworld, ogawaa1218, txpyr12, shimon8470, tokyo_h, kkawakami, nakamatchy, wslash, TS, ikebukurou 太郎, bantou, shota0404, Sarah_investing, Sotaro Kimura, TAMAKI Yoshihito, kanikanaa, La2019, magnettyy, kttshnd, satoshihirose, Tale of orca.