Toutiao(今日头条)はバイトダンス(Bytedance)の主力製品の一つで同社最初のヒット作である。中国では毎日1億2,000万人以上が利用している明示的なユーザー入力、ソーシャルグラフ、または製品購入履歴に頼ることなく、Toutiaoは、深層学習アルゴリズムを利用して、ユーザーごとにパーソナライズされた高品質のコンテンツフィードを提供している。

Toutiaoのアルゴリズムは、単にコンテンツを提供するだけではなく、コンテンツも作成する。2016年のオリンピックでは、Toutiaoのボットがオリジナルのニュース記事を書き、従来のメディアよりも早く主要なイベントの記事を公開した。2016年のオリンピックでは、Toutiaoのボットがオリジナルのニュース報道を書き、主要なイベントの記事を従来のメディアよりも迅速に発表した。ボットが書いた記事は、人間のライターの平均的なスピードとコストで制作された記事と遜色のない読まれ率(読まれた回数とインプレッション数)を記録した。

これは、平均的なユーザーが Facebookに費やす時間よりも多く、Snapchatに費やす時間の 2 倍以上に相当する。その半分以上の時間が短編動画の視聴に費やされており、1日の動画視聴回数が100億回を超えていることから、頭脳は中国のYouTubeとなっている(もちろん、他のすべてのサービスも含めて)。

Toutiaoが成功した背景

Toutiaoは2012年にローンチした。このアプリは、機械学習とディープラーニングのアルゴリズムを使用して、ユーザーが最も興味を持つコンテンツをソース化し、表示する。Toutiaoの基礎となるテクノロジーは、タップ、スワイプ、各記事に費やした時間、ユーザーが読んだ時間帯、一時停止、コメント、コンテンツとのインタラクション、位置情報など、ユーザーの利用状況を通じて読者について学習するが、ユーザーからの明示的な入力を必要とせず、ユーザーのソーシャルグラフ上に構築されることはない。今日では、各ユーザーは何百万もの次元にわたって測定され、その結果、アプリを開くたびに、すべてのユーザーにパーソナライズされた広範で高品質なコンテンツフィードが提供されている。

Toutiaoは、中国でスマートフォンの利用が活発化している時に立ち上げられた。さらに、大手コンテンツプロバイダーの多くはまだモバイルアプリやモバイルフレンドリーなサイトを開発していなかったため、真の意味でモバイルに最適化された情報やエンターテイメントはほとんどなかった。2012年半ばまでに、中国のAndroidプラットフォーム上には6つの重要なニュースアプリしかなかった。そのうち4つは既存のニュースポータルを直接拡張したもので、モバイル最適化が制限されており、残りの2つは、記事の選択に関し編集者の入力のみに頼っているアグリゲータだった。さらに、中国の視聴者のコンテンツ(記事と動画の両方)に対する需要は、WeChatやWeiboなどの中国のソーシャルネットワークでは十分に満たされていなかった。WeChatはメッセンジャーとしてスタートし、今日に至るまで閉鎖的なソーシャルネットワークである(つまり、共有や瞬間は友人のみに公開されている)。

Toutiaoは、使いやすく、パーソナライズされた、情報が豊富で、やみつきになるモバイルファーストのアプリで、このギャップに踏み込んだ。最初から、Toutiaoは非常に簡単に使い始めることができた。アカウントとパスワードを作成したり、ソーシャルメディアとリンクさせたり、興味や好みの情報を提供する必要はなかった。アプリのシンプルなデザインは、予備知識やチュートリアルがなくても直感的に使えるようになっている。どのようなアプリでも、初期エンゲージメント(ダウンロードからDAUへの移行)を促進することは難しいことで知られている。落胆、混乱、または迷惑のために、プロセスのすべてのステップでユーザーを失うのは典型的なことだ。

アプリ名の「今日头条」(中国語で「今日のヘッドライン」の意味)とアプリのアイコンがユーザーにとってキャッチーで、結果的にユーザーが大きく伸びた。また、様々なニュース記事が一箇所に集約されたのは初めてのことだった。初期の頃から、Toutiaoは各ユーザーのタップ、スワイプ、記事ごとの滞在時間、場所などの情報を追跡し、後述するレコメンドエンジンの動力源としていた。

発売から1ヶ月後、Toutiaoは数人のユーザーのためにパーソナライズされたニュースアグリゲータになりました。当時唯一の製品であり、繊細にデザインされたこの製品は、急速な成長をもたらした。彼らは発売からわずか4ヵ月で100万DAU(日間アクティブユーザー)を達成した。Toutiaoは、新しいインターネットユーザーに、モバイル時間がまだ確保できていないときに「やるべきこと」を与えた。Toutiaoは、最初の1年を通してほぼ毎週のようにアプリを更新し、一貫して革新、反復、機能とアルゴリズムの改善を行い、その結果、時間の経過とともに定着率が向上した。

その後数年で、モバイルでのユーザーの注目度シェアをめぐる競争が激増し、中国で利用できるモバイルアプリの数は、2012年から20154年までの3年間で3倍以上に増えました。しかし、Toutiao が早期にリードしていたため、競合他社が到着する頃には、すでに重要で貴重な足がかりを得ていた。

AIボットによる記事執筆

コンテンツ製作は人間の独占領域だった。Toutiaoはそれを変えようとしている。それはシャオミンボット(Xiaomingbot)という人工知能(AI)から始まったもので、これまでにすでに8000以上の記事をプラットフォーム上で公開している。2016年のオリンピック開催中にデビューし、従来のメディアよりも主要なイベントの記事を素早く(イベント終了後約2秒で)掲載した。実際、ボットが作成した記事は、人間のライターがより遅いスピードと高いコストで作成した記事と同程度の読了率を享受した。

まず、オリンピックの試合結果についての記事を書くためにはデータが必要であり、Toutiaoは3つのソースからデータを取得した。[1] オリンピック組織からのリアルタイムのスコア更新、[2] 最近買収した画像収集会社から関連する映像メディアを探すための画像、[3] 試合に関するライブのテキスト解説――をモニターしている。

また、卓球、テニス、バトミントン、女子サッカーの4つのスポーツから始めたが、これは技術的な観点から見て、より簡単なものだった(卓球、テニス、バトミントンは「ターン制」のゲームであり、ゲームのルールは他のスポーツに比べて単純だ)。

Toutiaoは、これら3つのソースからのデータをどのように組み合わせて、内部的に一貫性があり、関連性のあるストーリーを確保するかを考えなければならなかった。これは、そもそもデータにアクセスして解釈することよりもはるかに大きな課題だった。選択された画像はすべて、イベントの結果と関連性があり、解説からの抜粋にも適切なものでなければならなかった。そのため、ToutiaoのAIチームは、自然言語処理機能と文脈に沿った画像認識を統合する必要があった。最終的には、ストーリーテンプレートを生成するための文法ベースの表現、ライブテキストの解説から関連する文章を選択するためのランキングアルゴリズム、そしてそれをすべて結びつけるための画像テキストマッチングアルゴリズムを組み合わせたシステムが完成した。

また、候補画像の内容を解析するために畳み込みニューラルネットワークを採用している。このモデルは、過去のデータに基づいてトレーニングを行うことで、ストーリーに最も関連性が高く、視覚的に魅力的な画像を選ぶことができる。システムは、文章をユークリッド空間上のベクトルとして表現するためにリカレント・ニューラル・ネットワークを採用しており、これらの文章ベクトルは、各記事の簡潔な要約を選ぶためにランキング・モデルにさらにフィードされるという(参考: Anu Hariharan. "The Hidden Forces Behind Toutiao: China’s Content King")

これらの努力の結果、リオ五輪期間中に発表された500~1,000語のストーリー450本は、大成功を収めた。これらの記事は、人間のライターがゆっくりとしたスピードとコストで制作した記事と同等の既読率(読まれた数をインプレッション数で割ったもの)を誇っていた。Toutiaoは、この能力をスポーツ以外にも8,000以上の記事にまで拡張し、人間のライターを認識させるために残っている技術的な抜け穴のいくつかを埋めるために努力している。

コンテンツ構成

初期の頃のToutiaoの主なエンゲージメント・ドライバーは「ソフトニュース」で、有名人のゴシップ、ポップカルチャー、ライフスタイルの記事などの分野だった。有名な国営のニュースソースから配信される公式ニュースとは異なり、ソフトコンテンツはインターネット上の多数の個別サイトで配信されていた。つまり、コンテンツにアクセスできる中心的な場所がなかったため、コンテンツを探しているユーザーは有意義な時間を費やしてさまざまなサイトを訪問しなければならず、最も興味深い情報を得られる保証はなかった。Toutiaoはこれを変えた。配信を一元化し、最適化することで、ユーザーがコンテンツを見つけるのに必要な時間をほぼゼロに短縮し、最も興味深いストーリーを読んでいるという信頼感を高めることができた。

コンテンツ選択の革新は2つある。1つ目は、ウェブサイトを訪問してストーリーを特定し、関連するメタデータを収集する必要がある。もう一つは、ストーリーの中央レポジトリを継続的に更新し、できるだけ多くのパーソナライズされたバージョンを作成する必要がある。どちらもプロセス集約型のタスクであり、アルゴリズムが人間よりも明確に優位に立っている。Toutiaoの発売当時、この分野での唯一の意味のある競争相手は、人間の編集者がこの作業を処理するウェブポータルであり、Toutiaoはアルゴリズムを使用したことで、手動の競争相手よりも大きなアドバンテージを得ている。

Toutiaoはまた、アルゴリズムを使用して、低品質のコンテンツを識別し、フィルタリングしています。コンテンツ配信プラットフォームは、配信するコンテンツの良さだけで成り立っている。大量に配布されるクッキーのようなコンテンツ(新聞、雑誌など)の時代は終わった。Toutiaoの世界では、配信プラットフォームはユーザーにとって興味深いものだけを提供する。メディア業界では、誤報やスパムが大きな問題となっている。Toutiaoの基礎技術は、テキスト分類アルゴリズムを使用して、記事がフェイクニュースであるか、クリックベイトのタイトルを使用しているか、Toutiaoの品質基準を満たしていないかを判断する。ここでは、Toutiaoはユーザーのモデレーターを利用してフェイク記事にフラグを立て、人間のモデレーターを採用して、論争のあった報道の仲裁を行っている。

推薦アルゴリズム

コンテンツ推薦は、Toutiaoが最もよく知られている機能であり、その成功と評判の大部分を占めている。コンテンツのライフサイクルのこの段階で機械学習とディープラーニングアルゴリズムを使用していることが、Toutiaoが他社と一線を画す大きな要因になっており、ユーザーの継続的な成長と維持を促進する鍵となっている。

レコメンデーションエンジンは「プラットフォームが各ユーザーに推薦できる100の記事の中で、継続的なエンゲージメントにつながる可能性が最も高いものは何か?」という課題に集中している。AIチームは、100の見出しがリテンションの「しきい値」であることを認識している(長期的にリテンションを維持できないユーザーは、100の見出しを見た後に劇的に落ちていく傾向があり、Facebookの「10人の友達」というルールに似ている)。

この質問は単純かもしれませんが、解決策は複雑だ。Toutiao は、すべての新規ユーザーに対して、3つの主要エリアからのシグナルをブレンドして、ユーザーの行動を 100 ヘッドラインのしきい値以上に押し上げる魅力的なフィードを作成する戦略を採用している。

  • ユーザープロファイル:最初は、アプリがユーザーの人口統計学(年齢、場所、性別、社会経済的地位)を理解していることに基づいて作成される。
  • コンテンツ:記事の内容を理解するために、Toutiaoは自然言語処理を利用して、記事がトレンドになっているかどうか、記事が長いか短いかどうか、記事の適時性を判断する。
  • コンテキスト:場所関連のデータ(地理、天気、ローカルニュースなどの地域性)に関連。

次に、基礎となるアルゴリズムは、ユーザーのプロフィール、ユーザー自身のコンテンツプロフィール、コンテキストの間で最も強い統計的な一致を識別し、これを継続的に行わなければならない。このマッチングは、ユーザーが読む(クリックする)記事の割合と、ユーザーが終了する記事の割合(ページに費やした時間で測定)を最適化することを意味する。

ユーザーが最初にアプリを開くと、システムはマッチングのためにプロファイルの基本データを使用する。例えば、深センのユーザーは、技術に関する記事をクリックする可能性が高いかもしれない。また、システムは興味・関心を評価するために、さまざまな記事を表示するようにしている。そうすることで、ユーザーはこれまで知られていなかったコンテンツを発見したり、潜在的な興味をテストしたりすることができます。時間の経過とともに、アプリがユーザーの情報を収集することで、これらのレコメンデーションはさらに洗練されていく。エンジンは素早く学習する。ほとんどのユーザーの場合、興味の学習に成功するまでに1日もかからない。その結果、ソーシャルネットワークに匹敵する強力なユーザーリテンションと、世界最大級のユーザーアプリあたりの滞在時間を実現した事例があるといわれる。

参考文献

  1. Anu Hariharan. "The Hidden Forces Behind Toutiao: China’s Content King" Yconbinator Blog. October 12, 2017.
  2. Shaun Shia. "Recommendation system behind Toutiao news App". Jul, 2018.