GoogleのAIがウェブページを動画に変換

Googleの研究者によると、ウェブページを自動的に短い動画に変換するAIシステムを開発した。このシステムは、HTMLソースからテキストや画像などのアセットと、フォント、色、グラフィックレイアウトなどのデザインスタイルを抽出し、アセットを一連のショットに整理して、ソースページと同様のルック&フィールを維持しながら実行する。

Google は、このシステムが、自社のサービスや製品に関する豊富なビジュアル表現を含むウェブサイトをホストする企業にとって有用であることを想定している。同社によると、これらの資産は動画に再利用することができ、潜在的に大規模なリソースを持たない企業でも、より多くの視聴者にリーチできるようになる可能性があるという。一般的なビデオの制作費用は880ドルから1200ドルで、制作には数日から数週間かかる。

2020年のユーザーインターフェースソフトウェアと技術シンポジウムで発表された「URL2Video」は、ページから重要なコンテンツを自動的に選択し、各アセットの時間的・視覚的なプレゼンテーションを決定する。これらのプレゼンテーションは、デザイナーとの研究を通じて特定された一連のヒューリスティックに基づいており、コンテンツの階層性、ショット内の情報量と時間の制約、ブランディングのための一貫した色とスタイルを提供する一方でのショット内の情報量と時間の制約などの動画編集スタイルを捉えている。この情報を使用して、URL2Video はウェブページを解析し、コンテンツを分析し、視覚的に重要なテキストや画像を選択し、デザインスタイルを保持し、ユーザーの仕様に応じて整理する。

URL2Video は、ウェブページごとにドキュメントオブジェクトモデル情報とマルチメディア素材を抽出し、見出し、製品画像、説明、およびコールトゥアクションボタンを含むアセットグループの候補リストとして視覚的に識別可能な要素を識別する。システムは、各要素の生のアセット(テキストファイルやマルチメディアファイル)と詳細なデザイン仕様(HTMLタグ、CSSスタイル、レンダリング位置)の両方を取得し、視覚的な外観と注釈に基づいてそれぞれに優先度の高いスコアを割り当てることで、アセットグループをランク付けする。このようにして、ページの上部でより大きな面積を占めるアセット グループは、より高いスコアを受け取る。

URL2Videoは自動的にアセットグループを選択し、優先度スコアの合計が最適化されるように順序付けを行う。動画を簡潔にするために、システムは見出しや少数のマルチメディア資産など、ページからの支配的な要素のみを提示し、要素の持続時間を制限する。DOM 階層に基づいたアセットの順序付きリストが与えられると、URL2Video は設計研究から得られたヒューリスティックに従って、時間的・空間的な配置を決定する。要素のレイアウトを動画のアスペクト比に変換し、フォントや色などのスタイル選択を行い、アセットの表示タイミングを調整し、MPEG-4動画にレンダリングする。

Googleでのデザイナーとのユーザー研究では、URL2Videoはウェブページから効果的に要素を抽出し、動画作成プロセスをブートストラップ化することでデザイナーをサポートしたという。「現在の研究では視覚的なプレゼンテーションに焦点を当てていますが、動画編集で音声トラックやナレーションをサポートする新しい技術を開発している」と、Googleの研究者であるPeggy ChiとIrfan Essaはブログの投稿で書いている。「全体として、私たちは、クリエイターが高レベルの意思決定に集中し、MLモデルが複数のプラットフォーム上で最終的な動画作成のための詳細な時間的編集やグラフィカルな編集をインタラクティブに提案する未来を想定している」。