テスラの「カメラのみ自律走行」堅持はマスクの”こだわり”

要点

テスラが多数派と異なりカメラのみに頼った自律走行に固執するのは、イーロン・マスクの「こだわり」によるものと報じられた。エンジニアとマスクの意見衝突はしばしば起き、去ることを選んだ人も少なくなかった。


ニューヨーク・タイムズ(NYT)は長年にわたってオートパイロットの開発に携わってきた19人の関係者にインタビューを行い、マスクによる内部命令、プロジェクトに携わるエンジニアの意見の相違、実態と乖離したCEOの発言について報じた

この報道によると、オートパイロットは当初、カメラ、レーダー、音波センサーを使用していた。しかし、マスクはエンジニアたちに、最終的にはカメラだけを使うべきだと話していたという。オートパイロットチームはレーダーを使ったシステムの開発を続けており、各車両に搭載するレーダーセンサーの数を増やすことも計画していた。また、LiDAR (光検出・測距装置)も検討していた。

しかし、NYTが引用したプロジェクトの成り立ちに詳しい3人の関係者によると、マスクはオートパイロットチームのメンバーに対し「人間は2つの目だけで運転できるから、車もカメラだけで運転できるはずだ」と繰り返し話していたという。

マスクはビジョンアプローチが進むべき道であると主張し、第三者からレーダー技術を購入して統合することとその費用に、最終的にレーダーが見合うかどうか疑問に思っていたと、オートパイロットチームで働いていた4人の関係者は語っている。その後、会社とチームは彼の考え方に近づき、コンピュータービジョン技術をより重視するようになったという。

自律走行車を開発している他の企業は、カメラだけでは不十分だと考えている。テスラ以外のほとんどの企業は高価なLiDARと高精細地図(HDマップ)の組み合わせることを選び、そのせいで高まった一台あたりのコストを勘案すると、ロボタクシーが自律走行車のもっともらしい事業化方法だと考えられている。

Waymoのような自律走行システムの会社と異なり、テスラは自動車会社であり、世界中に自律走行機能を持つ自動車を販売することでお金を稼げる。このため、どのような環境でも自律的に走ることできるビジョンベースの自律走行を追い求めているのかもしれない。マスクは、自動車の私的所有と比べて少数の自動車で成立するロボットタクシー事業に言及しなくなってきている。

一方、カメラは安価で小型であるため、テスラの洗練された車にも採用された。電波を利用するレーダーは、数十年の歴史があり、一般的ではない技術であるライダよりも安価でした。しかし、このプロジェクトに携わった3人の関係者によると、エンジニアの中には、レーダーは必ずしも正確ではなく、レーダーのデータとカメラの情報を一致させるのは難しいと主張して、マスクのカメラのみのアプローチを支持する者もいたという。

そもそもレーダーはマスクの美学にそぐわなかったようだ。2014年末、テスラはオートパイロットの最初のバージョンを展開する準備として、モデルSのセダンにレーダーを搭載し始めた。当時、このプロジェクトに携わっていた2人の人物によると、マスクは車の前部に開けられた穴の中でレーダーが見えるのが気に入らず、エンジニアにゴム製のシールを取り付けるように指示したようだ。

これらの関係者によると、同社はマスク氏の指示に従い、冬の天候でデザインをテストすることなく進めたが、冬になるとレーダーが作動しなくなるという顧客からの苦情を受けて事態を解決したとのことだ。

視覚のみのアプローチの難しさ

マスクは、テスラはカメラだけでドア・ツー・ドアの無人運転ができるべきだと主張していた。NYTの取材に応じたテスラのエンジニアのうち8人は、この技術的方向性に異論を唱え、外部の専門家も同様に異論を唱え、会社を去る者もいれば、マスクの命令に従う者もいた。

視覚のみのアプローチは、世界中のあらゆる場所でHDマップを収集・構築・維持するよりも拡張性が高い一方で、物体検出や運転を担当するニューラルネットワークが、人間の奥行きや速度の認識能力に匹敵するスピードで膨大な量のデータを収集・処理できなければならないため、課題が多い。

テスラのビジョンシステムは、主に各車両に組み込まれた8台のカメラ(および12個の超音波センサー)がリアルタイムに生成するデータをニューラルネットワークで処理することに依存している。

テスラの人工知能担当シニアディレクターであるAndrej Karpathyは6月21日に開催されたコンピュータビジョンのトップ会議であるComputer Vision and Pattern Recognition(CVPR)で「私たちのアプローチは主にビジョンベースで、車を囲む8台のカメラからの映像に基づいて、すべての出来事が車の中で初めて起こる(編注:事前に生成されたHDマップ等のデータに頼らず、その場ですべて判断しているの意)」と語っている。「例えば、初めての交差点では、車線がどこにあるのか、どのようにつながっているのか、信号機はどこにあるのか、どの信号機が関連しているのか、どの信号機がどの車線をコントロールしているのかなど、すべてのことが車の中で初めて起こる」。

「このインフラを常に最新の状態に保つのは非常にコストがかかる。もちろん、映像に基づいて信じられないほどよく機能するニューラルネットワークを実際に手に入れなければならないので、(競合他社のアプローチよりも)はるかに難しいことだ。しかし、一度うまくいけば、一般的なビジョンシステムとなり、原理的には地球上のどこにでも配備することができる。それが私たちが解決しようとしている問題だ」。

このようなLiDARで作成したHDマップを維持しないと、LiDARありの自律走行車は円滑に動作しない、とテスラの人工知能担当シニアディレクターAndrej Karpathyは講演で説明した。via CVPR
HDマップを作成するために必要な多数のLidarとGPS一式の一例。これらすべてをテスラ車に搭載して出荷すると、一台数千万円してしまう。イーロン・マスクがLiDARを「松葉杖」と呼んだのは、実はコストの背景が大きかもしれない。 via Ilci V et al(2020).

もう一度NYTの報道に戻ると、他社で自律走行車の開発に長く携わってきた人たちや、オートパイロットチームの元メンバー7人が、テスラがオートパイロットやFull Self Driving(FSD)を常に修正し、ソフトウェアアップデートでドライバーに提供していることに疑問を呈し、購入者はシステムが何ができて何ができないのかよくわからないため、危険であると語っていたようだ。

NYTは、サムスンで自律走行の研究を統括していたコンピュータビジョンの専門家であるSchuyler Cullenの言葉を引用し、カメラのみのアプローチは根本的に欠陥があると語っている。「カメラは目ではありません。ピクセルは網膜神経節ではない。カメラは目ではない。ピクセルは網膜神経節ではない。F.S.D.コンピュータは視覚野とは違う」と、コンピュータビジョンの専門家であり、現在はカメラベースの新しいセンサーを開発しているスタートアップを経営しているCullenは語っている。

テスラのサプライヤーだったモービルアイの最高経営責任者であるアムノン・シャシュアは、自動運転システムにカメラだけを使用するというマスクのアイデアは、短期的には他のセンサーが必要になるかもしれないが、最終的にはうまくいくだろうと述べている。また、マスクが自社の技術を誇張することがあるかもしれないが、その発言を真に受けるべきではないとも言っている。

関連記事

テスラの自律走行車はビジョンのみアプローチを継続するか?
LiDARはマスクが言うとおり松葉杖なのだろうか

一口15万円の投資を受け付け中

1口15万円の投資を常時受け付けます|吉田拓史 株式会社アクシオンテクノロジーズ代表取締役|note
こんにちは、株式会社アクシオンテクノロジーズの代表取締役社長、吉田拓史です。弊社は11月15日をもちまして常時開催型の公募を開始しました。今後は投資家の方々はいつでも弊社に1口15万3,000円で投資できます。 これまで弊社は1口50万円で公募・私募を行ってきましたが、以前からサイズをより細かくしてほしいという要望を頂いていました。 常時開催型の公募のキモは月末〆です。15万3,000円の入札をいただき、それを都度都度、登記する事務コストはあまりにも膨大なため、その月に頂いた入札をすべて月末〆、翌月登記で処理させていただくことで、1口15万円の公募が可能となります。 公募に至るま

有料購読の割引キャンペーン