MITとアドビ、コードなしで画像生成アルゴリズムを再プログラム

先週、MITとアドビがarXivに送った研究は、高度なアルゴリズムとシンプルなユーザーインターフェースの組み合わせがいかに可能かを示している。このチームは、ユーザーが組み合わせて見たい被写体の画像をいくつか選択すると、それに基づいて画像生成アルゴリズムを書き換える方法を考え出した。

MITとアドビ、コードなしで画像生成アルゴリズムを再プログラム

先週、MITとアドビがarXivに送った研究は、高度なアルゴリズムとシンプルなユーザーインターフェースの組み合わせがいかに可能かを示している。このチームは、ユーザーが組み合わせて見たい被写体の画像をいくつか選択すると、それに基づいて画像生成アルゴリズムを書き換える方法を考え出した。

たとえば、帽子をかぶったジョッキーに乗られている馬の写真がある場合、馬の頭をクリックしてからジョッキーの帽子をクリックすると、アルゴリズムが帽子をかぶった馬の画像を生成する。ここで実際に動いているのを見ることができる例は、単純なものだが、コア技術は強力だ。

GANのような深層生成モデルは、対象分布に関する豊富な意味的・物理的ルールの集合をモデル化するために学習するが、そのようなルールがどのようにネットワークにエンコードされているのか、あるいはルールがどのように変更されているのかは、これまで不明瞭だった。

この論文「Rewriting a Deep Generative Model」(David Bau, Steven Liu, Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba)では、新たな問題設定として、ディープ生成モデルによってエンコードされた特定のルールの操作を紹介している。この問題を解決するために、我々は、深層ネットワークの層を線形連想メモリとして操作することで、目的のルールを変更するという定式化を提案する。

チームは、連想メモリの一つのエントリを変更するためのアルゴリズムを導出し、いくつかの興味深い構造規則が、最先端の生成モデルの層の中に位置し、変更できることを実証した。また、ユーザが生成モデルのルールをインタラクティブに変更して目的の効果を得ることができるユーザインタフェースを提示し、いくつかの概念実証アプリケーションを示す。最後に、複数のデータセットを用いた結果から、標準的な微調整手法や編集転送アルゴリズムに対する本手法の優位性を実証する。

チームが採用した手法は、ジェネレーターの重みがOptimal Linear Associative Memory(OLAM)として機能するという仮説に基づいている。

OLAMは、1970年代にTeuvo KohonenとJames A Anderson(独立して)によって記述された、連想を記憶するための古典的な単層ニューラル・データ構造である。我々の場合、現代の大規模な多層畳み込みネットワークの中では、各層がOLAMの役割を果たしており、意味のある文脈を表すキーと出力を決定する値を関連付けるルールのセットを記憶しているという仮説を立てている。

彼らが提案する手法を使用して、シーン内のオブジェクトの新しい配置の追加、未定義の出力パターンの系統的な削除、物理的な光のモデリングのグローバルな変更など、いくつかの視覚的な編集効果を作成するために使用している。その手法はシンプルで高速であり、大量のアノテーションセットを必要としない。

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史