自律走行車

WaymoがGANを使って自律走行車のカメラデータをシミュレーション

Waymo チーフサイエンティストのDragomir Anguelovを含む同社の研究者が共著した2020年の論文では、テクスチャマップされた表面要素を使用してシーンやカメラの視点の位置や向きを再構築する技術「SurfelGAN」について説明している。

吉田拓史

19 1月 2021 — 5 min read

Waymoは、自動運転車が収集したセンサーデータを利用してシミュレーション用のカメラ画像を生成するためにAIを活用している。チーフサイエンティストのDragomir Anguelovを含む同社の研究者が共著した2020年の論文では、テクスチャマップされた表面要素を使用してシーンやカメラの視点の位置や向きを再構築する技術「SurfelGAN」について説明している。

Waymoのような自律走行車会社は、シミュレーション環境を使用して、実際の車にシステムを展開する前に、システムのトレーニング、テスト、検証を行っている。シミュレータを設計する方法は無数にあるが、基本的なシミュレータでは、歩行者のジェスチャーやライトの点滅など、シーンを理解する上で重要な手がかりが省略されている。WaymoのCarCraftのようなより複雑なシミュレータでは、LiDARやレーダーのようなセンサーがリアルに動作するように、材料を非常に正確にモデル化しようとするため、計算量が多くなる。

SurfelGANでは、Waymoはセンサーデータをシミュレートするための、よりシンプルでデータ駆動型のアプローチを提案している。現実世界のライダーセンサーやカメラからのフィードを利用して、AIはシーン内のすべてのオブジェクトの3Dジオメトリ、セマンティクス、外観に関する豊富な情報を作成し、保存する。再構成が与えられると、SurfelGANは様々な距離と視野角からシミュレートされたシーンをレンダリングする。

SurfelGAN

SurfelGANは、テクスチャ強化サーフェルマップ表現（texture-enhanced surfel map representation）と呼ばれるものを使用している。これは、コンパクトで構成が簡単なシーン表現で、適度な計算効率を保ちながらセンサ情報を保持する。

Surfelとは、「表面要素」の略語で「ボクセル」（ボリューム要素）や「ピクセル」（ピクチャ要素）に似ている。3Dコンピュータグラフィックスでは、Surfelの使用はポリゴンモデリングの代替となる。オブジェクトは、照明情報を保持している点の密集したセットまたはビューアに面したディスクによって表現される。Surfelは、隣接関係リストのようなトポロジー情報を計算する必要がないため、自律走行環境のような動的ジオメトリのモデリングに適している。他にも、医療スキャナのデータ表現、粒子系のリアルタイムレンダリングなどに応用されている。

Waymoのアプローチでは、LiDARスキャンで得られたボクセルを、カメラデータから推定された色を持つSurfelに変換し、その後、Surfelを後処理して照明やポーズの変化に対応させている。

車両のような動的なオブジェクトを扱うために、SurfelGANは、Waymoのオープンソースの自動運転車のセンサーログのコーパスであるWaymo Open Datasetからのアノテーションも採用している。関心のあるオブジェクトのLiDARスキャンからのデータが蓄積されているため、シミュレーションでは、Waymoは不完全なジオメトリやテクスチャリングではあるが、任意の場所に配置できる自動車や歩行者の再構成を生成できる。

SurfelGANの中の1つのモジュールである敵対的生成ネットワーク（GAN）は、Surfel画像のレンダリングをリアルな画像に変換する役割を担っている。その生成器は、分布を使ってサンプリングされたランダムノイズから合成例を生成し、訓練データセットからの実例とともに識別器に供給される（下図）。生成器と識別器の両方がそれぞれの能力を向上させ、識別器が合成例と実例を見分けることができなくなるまで、偶然に期待される50%以上の精度で識別することができるようになる。

SurfelGANトレーニングパラダイム。トレーニングセットアップには、2つの対称エンコーダー/デコーダー. Image via Waymo. https://deepai.org/publication/surfelgan-synthesizing-realistic-sensor-data-for-autonomous-driving

SurfelGANモジュールは、教師なしで学習する。つまり、既知の結果、ラベル付けされた結果、またはアノテーションされた結果を参照することなく、コーパス内のパターンを推測する。興味深いことに、識別器の作業はジェネレーターの作業に影響を与える。識別器が合成された作業を正しく識別するたびに、将来的により現実的になるように出力を微調整する方法をジェネレーターに伝える。

結果: 実物画像と同等の指標を達成

WaymoはSurfelGANの性能を評価するために一連の実験を行い、Waymo Open Datasetから車両、歩行者、自転車のアノテーションとともに20秒間のカメラデータ（5台のカメラ）とLiDARデータからなる798個のトレーニングシーケンスを与えた。SurfelGANチームはまた、Waymo Open Dataset-Novel Viewと呼ばれる新しいデータセットを作成して使用した。

最後に、Waymoは、注釈なしのカメラ画像の追加シーケンス（合計9,800、各100フレーム）を収集し、Dual-Camera-Post Dataset（DCP）と呼ばれるコーパスを構築して、SurfelGANが生成した画像のリアルさを測定した。Waymoは、1台目の車両のデータを使用してシーンを再構成し、2台目の車両の正確なポーズで画像をレンダリングし、ピクセル単位の精度を判断するために約1,000組のペアを作成した。

SurfelGAN-SAC（1/2）の定性結果。Surfelレンダリングと合成画像のペア（上下で対）。

論文の共著者らは、SurfelGANで生成した画像を市販の車両検出器に提供したところ、最高品質の合成画像が実物画像と同等の指標を達成したと報告している。また、SurfelGANは、DCPでのSurfelレンダリングの上に改良を加え、距離の範囲で実画像に近い画像を生成した。さらに、研究者らは、SurfelGANからの画像によって、車両検知器の平均精度（異なるサンプルからの推定値がどれだけお互いに近いか）を11.9％から13％に向上させることができることを実証した。

共著者は、SurfelGANは完璧ではないと指摘している。例えば、壊れたジオメトリを復元できないことがあり、非現実的な車両の外観になってしまうことがある。また、サーフェル合図がない場合、AIは高いばらつきを示し、特に高い建物のようなデータセットでは珍しいパターンを幻覚化しようとすると、高いばらつきを示す。にもかかわらず、同社の研究者は、将来の動的オブジェクトモデリングや映像生成シミュレーションシステムの強力な基盤になると考えている。

Photo: "File:Waymo Chrysler Pacifica in Los Altos, 2017.jpg"by Dllu is licensed under CC BY-SA 4.0