AIシステムがミュージシャンの無音動画から音楽を推測

MITとMIT-IBMワトソンAIラボの研究者たちは、楽器を演奏するミュージシャンの無音のビデオから「もっともらしい」音楽を生成するAIシステム「Foley Music」を紹介した。このシステムは様々な音楽演奏に対応しており、聞いていて気持ちの良い音楽を生成するという点で既存のシステムを凌駕しているという。

AIシステムがミュージシャンの無音動画から音楽を推測

要点

MITとMIT-IBMワトソンAIラボの研究者たちは、欧州コンピュータビジョン会議に採択された研究の中で、楽器を演奏するミュージシャンの無音のビデオから「もっともらしい」音楽を生成することができるAIシステム「Foley Music」を紹介している。彼らによると、このシステムは様々な音楽演奏に対応しており、聞いていて気持ちの良い音楽を生成するという点で「いくつかの」既存のシステムを凌駕しているという。


体の動きから音楽を推測することができるAIモデルは、ビデオに自動的に効果音を追加することから、仮想現実の中で没入感のある体験を作成するために、さまざまなアプリケーションの基盤として役立つ可能性があると研究者たちは考えている。認知心理学の研究では、人間がこのスキルを持っていることが示唆されている - 幼い子供でさえ、彼らが聞くものは、例えば、人が話すのを見てから受け取る信号によって影響を受けると報告している。

Foley Musicは、映像から人の身体(計25点)と指(計21点)の2次元キーポイントを中間的な視覚表現として抽出し、身体や手の動きをモデル化します。音楽には、各音のタイミングや大きさを符号化したMIDI表現を採用している。キーポイントとMIDIイベント(約500個)を与えられた「グラフ変換器」モジュールは、動きと音楽を関連付けるためのマッピング関数を学習し、長期的な関係性をキャプチャして、アコーディオン、ベース、ファゴット、チェロ、ギター、ピアノ、チューバ、ウクレレ、バイオリンのクリップを作成する。

MIDIイベントはシステムによって音楽にレンダリングされないが、研究者は、それらが標準的なシンセサイザーにインポートすることができることに注意してください。研究チームは、これを自動的に行うためのニューラルシンセサイザーの訓練については、今後の研究に委ねている。

実験では、研究者は11のカテゴリに属する1,000の音楽パフォーマンスビデオを含む3つのデータセット上でFoley音楽を訓練した。URMPは、スタジオで録音された高品質の多楽器のビデオコーパスであり、録音された各ビデオにはMIDIファイルが提供されている。

このシステムは、ソロやデュエットなど、さまざまな組み合わせで楽器を演奏する人々の映像を多数収録したビデオを使って訓練されます。各ビデオにどのような楽器が映っているか、どこに配置されているか、どのように聞こえるかについての監督は行われません。

研究者たちは、訓練されたFoley Musicシステムに450本の動画のMIDIクリップを生成させた。その後、Amazon Mechanical Turkのボランティアに、これらのクリップのうち50個を4つのカテゴリに分けて評価するというリスニング調査を実施した。

  • 正しさ。 生成された曲が動画コンテンツにどれだけ関連しているか。
  • ノイズ。 どの曲が最もノイズが少なかったか。
  • 同期性。 どの曲が動画コンテンツと最も時間的に一致していたか。
  • 総合的。 どの曲を聴きたいと思ったか

評価者は、Foley Musicが生成した音楽は、他のベースラインシステムに比べて、実際の録音物と区別しにくいことを発見したと報告している。さらに、MIDIイベント表現は、音質、セマンティック・アライメント、時間的同期を改善するのに役立つようだ。

その結果、身体のキーポイントとMIDI表現によって、視覚信号と音楽信号の間の相関関係が十分に確立されることが示された。さらに、我々のフレームワークを簡単に拡張して、MIDI表現を使って異なるスタイルの音楽を生成できることを示しています」と共著者は書いています。「私たちの研究は、中間的なボディキーポイントとMIDIイベント表現を用いて、映像と音楽のつながりを研究するための将来の研究を切り開くものと期待しています」。

Foley Musicは、MITのコンピュータサイエンス・人工知能研究所(CSAIL)の研究者が、AIを使って楽器の音を区別して分離するシステム「Pixel Player」を詳細に発表してから1年後に発表されたもの。完全に訓練されたPixelPlayerは、入力としてビデオを与えられると、付随する音声を分割して音源を識別し、画像内の各ピクセルの音量を計算して「空間的に定位」する、つまりクリップ内の類似した音波を発生させる領域を識別する。

参考文献

  1. Chuang Gan et al. Foley Music: Learning to Generate Music from Videos. arXiv. 2007.10984.

Photo by Gabriel Gurrola on Unsplash

Read more

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

過去20年間、主に富裕国で構成されるOECDのアナリストたちは、学校の質を比較するために、3年ごとに数十カ国の生徒たちに読解、数学、科学のテストを受けてもらってきた。パンデミックによる混乱が何年も続いた後、1年遅れで2022年に実施された最新の試験で、良いニュースがもたらされるとは誰も予想していなかった。12月5日に発表された結果は、やはり打撃となった。

By エコノミスト(英国)
中国は2024年に経済的苦境を脱するか?[英エコノミスト]

中国は2024年に経済的苦境を脱するか?[英エコノミスト]

2007年から2009年にかけての世界金融危機の後、エコノミストたちは世界経済が二度と同じようにはならないことをすぐに理解した。災難を乗り越えたとはいえ、危機以前の現状ではなく、「新常態」へと回復するだろう。数年後、この言葉は中国の指導者たちにも採用された。彼らはこの言葉を、猛烈な成長、安価な労働力、途方もない貿易黒字からの脱却を表現するために使った。これらの変化は中国経済にとって必要な進化であり、それを受け入れるべきであり、激しく抵抗すべきではないと彼らは主張した。 中国がコロナを封じ込めるための長いキャンペーンを展開し、今年その再開が失望を呼んだ後、このような感情が再び現れている。格付け会社のムーディーズが今週、中国の信用格付けを中期的に引き下げなければならないかもしれないと述べた理由のひとつである。何人かのエコノミストは、中国の手に負えない不動産市場の新常態を宣言している。最近の日米首脳会談を受けて、中国とアメリカの関係に新たな均衡が生まれることを期待する論者もいる。中国社会科学院の蔡昉は9月、中国の人口減少、消費者の高齢化、選り好みする雇用主の混在によってもたら

By エコノミスト(英国)
イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

広告業界を軽蔑するイーロン・マスクは、バイラルなスローガンを得意とする。11月29日に開催されたニューヨーク・タイムズのイベントで、世界一の富豪は、昨年彼が買収したソーシャル・ネットワーク、Xがツイッターとして知られていた頃の広告を引き上げる企業についてどう思うかと質問された。「誰かが私を脅迫しようとしているのなら、『勝手にしろ』」と彼は答えた。 彼のアプローチは、億万長者にとっては自然なことかもしれない。しかし、昨年、収益の90%ほどを広告から得ていた企業にとっては大胆なことだ。Xから広告を撤退させた企業には、アップルやディズニーが含まれる。マスクは以前、Xがブランドにとって安全な空間である証拠として、彼らの存在を挙げていた。

By エコノミスト(英国)