Nvidia、AIテレビ会議サービス「Maxine」を発表

Nvidiaは5日、GPUで加速されたAI会議ソフトウェアを開発者に提供し、ビデオ品質を向上させるプラットフォーム「Nvidia Maxine」を発表した。同社はMaxineを「クラウドネイティブ」ソリューションとして説明しており、サービスプロバイダが視線補正、超解像、ノイズキャンセル、顔の再照などのAI効果をエンドユーザーに提供することを可能にする。

開発者、ソフトウェアパートナー、サービスプロバイダは、今週からMaxineへの早期アクセスを申請することができる。

ビデオ会議は、感染リスクを最小限に抑えながらコミュニケーションを取る方法を提供しているため、パンデミックの間に爆発的に普及した。4月下旬には、Zoomが1日の会議参加者数3億人を突破し、月初の2億人、12月の1000万人から増加した。App Annieのレポートによると、3月14～21日の週には、ビジネス会議アプリのダウンロード数が6,200万件を突破したという。

Nvidiaによると、Maxineはテレビ会議の通話に必要な帯域幅を「劇的に」削減するという。このプラットフォームは、ピクセルの画面全体をストリーミングするのではなく、通話中の各人の顔のポイントを分析し、相手側のビデオに映っている顔をアルゴリズム的に再生成する。これは表向きには、インターネット上を行ったり来たりするデータをはるかに少ない量でストリーミングすることを可能にする。Nvidiaは、Maxineを使用する開発者は、帯域幅をH.264規格の要件の10分の1にまで削減できると主張している。

この改善された圧縮を実現するために、NvidiaはGAN（敵対的生成ネットワーク）と呼ばれるAIモデルを採用していると述べている。GANは、サンプルを作成するジェネレーターと、そのサンプルと実世界のサンプルを区別しようとする識別器の2つの部分から構成されるモデルで、メディア合成において優れた能力を発揮している。最高の性能を持つGANは、例えば、実在しない人物のリアルな肖像画や、架空のアパートのスナップショットを作成することができる。

Maxineのもう1つのスポットライト機能は、顔合わせ機能で、通話中に参加者の顔がお互いに向いているように見えるように自動的に顔を調整することができる。視線補正機能は、カメラがユーザーの画面と合っていなくても、アイコンタクトをシミュレートするのに役立つ。自動フレーム機能により、ビデオフィードは、スピーカーが画面から離れても、そのスピーカーを追いかけることができる。また、開発者は、通話参加者に自分のアバターを選択させることができ、その声や声のトーンによって自動的にアニメーションが駆動される。

Maxineはまた、音声認識、言語理解、音声生成のためのAI言語モデルなどの会話機能にNvidiaのJarvis SDKを活用している。開発者はこれらを利用して、人間のような声でメモを取ったり、質問に答えたりするビデオ会議アシスタントを構築することができる。さらに、ツールセットは、参加者が議論されている内容を理解できるように翻訳やテープ起こしを行うことができる。

AvayaはMaxineプラットフォームをいち早く採用した。同社のビデオ会議アプリ「Avaya Spaces」では、背景ノイズの除去、仮想グリーン・スクリーンの背景、プレゼンテーション・コンテンツの上にプレゼンターを重ねて表示できる機能、音声を認識して区別できるライブ・トランスクリプションなどのメリットが得られる。

Nvidiaによると、Maxineのインフラストラクチャ、オーディオ、ビジュアルコンポーネントを支えるAIモデルは、Nvidia DGXシステムで何十万時間ものトレーニングを経て開発されました。この堅牢性と、GPU上のKubernetesコンテナクラスタで稼働するマイクロサービスを活用したMaxineのバックエンドにより、AI機能を同時に稼働させながらも、最大で数十万人のユーザーをサポートすることが可能になった。