Google、南カルフォルニア大学(USC)、カルフォルニア大学バークレー校の研究者は21日、3DダンスデータセットAIST++を用いた3Dダンス生成モデルを発表した。Transformerに基づいたこのモデルは、ダンスの初動を与えると、滑らかなダンスの続きを自動的に生成する。

YouTubeで最も視聴されている動画は、「ベイビーシャークダンス」や「江南スタイル」などのダンス中心のミュージックビデオであり、ダンスはインターネット上でメッセージを広めるための強力なツールとなっている。しかし、ダンスは芸術の一形態であり、人間であっても、表現力豊かな動きのコラージュを作成するために、ダンスの動きの豊富なレパートリーをダンサーに装備させるためには、専門的なトレーニングが必要である。この課題では、音楽との非線形な関係を捉えた高い運動学的複雑性を持つ連続的な動きを生成する能力が必要となるため、計算はさらに困難だ。

南カルフォルニア大学の博士候補Ruilong Liらは、新しいクロスモーダル変換ベースの学習フレームワークとAIST++と呼ばれる新しい3Dダンスモーションデータセットを提示し、音楽を条件とした3Dダンスモーションを生成するモデルを学習するために使用した。具体的には、1枚の音楽と短い(2秒)初動が与えられると、我々のモデルは現実的な3Dダンスモーションの長いシーケンスを生成することができる。

このモデルは、音楽と動きの相関関係を効果的に学習し、異なる入力音楽に対して変化するダンスシーケンスを生成することができる。ダンスは、関節回転と大域移動からなる3Dモーションシーケンスとして表現しており、図に示すようなモーションリターゲティングなどのアプリケーションへの出力を容易に転送することが可能である。

学習フレームワークについては、音楽を条件とした3次元運動を生成するための新しい Transformer ベースのクロスモーダルアーキテクチャを提案する。我々は、特に長いシーケンス生成に有効であることが示されている最近の Attention ベースのネットワークを基礎とし、3つのトランスフォーマを使用するフレームワークを設計した。1つは音声シーケンス表現用、1つは運動表現用、1つはクロスモーダルの音声と運動の対応関係用である。モーションとオーディオの変換器は入力シーケンスをエンコードし、クロスモーダル変換器はこれら2つのモーダル間の相関関係を学習し、将来のモーションシーケンスを生成する。このモデルは、異なる音楽に対して異なるダンスシーケンスを生成すると同時に、推論時にフリーズやドリフトを起こさない長期的にリアルな動きを生成することができる、とLiらは主張している。

提案モデルを学習するために,データの問題にも取り組んでいる.音楽に合わせて踊るダンサーのモーションキャプチャーデータはいくつかあるが、モカプデータを収集するには重度のインストルメント環境が必要であり、これらのデータセットは利用可能なダンスシーケンスの数、ダンサー、音楽の多様性が著しく制限されている。

そこで、LiらはAIST++と呼ばれる新しいデータセットを提案した。このデータから信頼性の高い3Dモーションを復元するために、マルチビュー情報を使用する。このデータベースにはマルチビューショットが含まれている。結果として得られたAIST++のデータセットには、音楽を伴う3Dダンスモーションの最大110万フレームが含まれており、この種のデータセットとしては最大規模となる。また、AIST++は、10の音楽ジャンル、30の被験者、1つのダンスにつき9つのビデオシーケンスにまたがっており、カメラの内部性を復元したもので、他の人体や運動の研究にも役立つ可能性を秘めている。このデータセットは https://google.github.io/aistplusplus_dataset/ にある。

このデータセットは、運動生成と予測の両方のタスクのベンチマークとして機能するように設計されています。また、2D/3Dの人間のポーズ解析など、他のタスクにも大いに役立つ可能性を秘めている。我々の知る限りでは、AIST++は1408のシーケンス、30の被験者、10のダンスジャンル、基本的な振り付けと高度な振り付けを持つ最大の3Dヒューマンダンスデータセットです。表1を参照してください。1を参照してください。AIST++は、AMASSのような既存の3Dモーションデータセットを補完するデータセットで、音楽を伴わない17.8分のダンスモーションしか収録していない。

AIST++には10のダンスジャンルが含まれている。オールドスクール(ブレイク、ポップ、ロック、ワック)とニュースクール(ミドルヒップホップ、LAスタイルヒップホップ、ハウス、クランプ、ストリートジャズ、バレエジャズ)である(下図)。

AIST+++に収録されたダンスの種類の可視化。Source: Ruilong Li, et al. Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

AIST+++に収録されたダンスの種類の可視化。Source: Ruilong Li, et al. Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

動きはすべてのダンスジャンルに均等に分布しており、幅広い音楽テンポをカバーしている。各ジャンルのダンスモーションには、基本的な振り付けが85%、高度な振り付けが15%含まれており、前者は基本的な短いダンス動作であり、後者はダンサーが自由に設計した長い動作である。しかし、AIST+++はインストラクションデータベースであり、ダンスではよくあるBPMの異なる音楽に合わせて複数のダンサーが同じ振付を踊っている様子を記録している。このことは、クロスモーダルなシークエンス・ツー・シークエンスの生成において、ユニークな課題となっている。

参考文献

Ruilong Li, et al. Learn to Dance with AIST++: Music Conditioned 3D Dance Generation. arXiv:2101.08779 [cs.CV]