ケンブリッジ・アナリティカが誇張した「精神ハック」への懐疑論

ケンブリッジ・アナリティカ（CA）の元データサイエンティストで、世界を震撼させた内部告発者のChristopher Wylieの"Mindf*ck: Inside Cambridge Analytica’s Plot to Break the World"（マインドファック：世界を壊したCAの内幕）が2019年10月に出版されました。本書は未翻訳であり、あらすじは翻訳書ときどき洋書さんのこちらのブログを確認ください。あるいは、僕が書いたこちらのブログは、心理ターゲティングが選挙結果に及ぼした効果の評価を除いて、本書の内容を知るのに役立ちます。

ケンブリッジ・アナリティカ事件で注目されたのは、彼らが個性を定量化するために、5つの主要な特性を心理学の「Big Five」（OCEAN = オーシャン）モデルに従って定量化したことです。CAの心理ターゲティングは主に、スタンフォード経営大学院の計量心理学者Mical Kosinskiらの先行研究を根拠にしています。

Kosinskiは2013年にオンライン行動から属性、性的指向、性格を理解できるとする研究を発表、スタンフォードに移った後、ケンブリッジ大学のWu Youyouとともに2015年にFacebookのいいねからその人の性格を性格に理解できるとする研究を発表していました。

Kosinskiとニューヨーク市立大学コロンビアビジネススクールの計算社会科学者、Sandra Matzらは、米大統領選挙後の2017年に人々の心理をターゲティングすることが、効果的であることを3つの研究を通じて示しました。Matzらは、女性のFacebookユーザーは、消費者の外向的または内向的と推定される性質に基づいて構成された美容小売業者の投稿に対し、「いいね！」をより多く押す傾向があることを発見しました。3つの実験を通じて、推定される性格特性に一致するように調整された広告を表示した人は、一致しない広告を表示した人よりもかなり多くの商品を購入することを実証しました。消費者が自分の性格を反映したマーケティングメッセージにより好意的に反応するという証拠です。Kosinskiらは、1つの仮説に対し3つの異なる実験を重ねることで、心理学の実験でしばしば問題にされる、再現性を確保したと主張します。この証拠はケンブリッジ・アナリティカが活用した扇動的な政治的なメッセージに対しても同様の結果を示す可能性を示唆しています。

CAは政治広告サービスを改善するため、当初、ケンブリッジ大学の心理学者であり研究者であるAleksandr Koganに頼りました。Kogan は当時同じケンブリッジ大学の The Psychometrics Centre（計量心理学センター）に所属していたKosinskiに着目しました。KosinskiはKoganの申し出を断ったため、Koganは、Kosinskiの研究の枠組みをそのまま利用することにし、データ収穫に関してはFacebook APIのクラックに頼ることにしました。

ビッグ・ファイブ分析に疑問符

FacebookのGraph APIの2006年から2015年までのバージョン1.0では、特定のプライバシー設定をオフにしない限り、第三者がユーザーの友人のデータも収集できました。「六次の隔たり」と表現されるように、Facebookのネットワークは非常に緊密なつながりを含んでおり、友人のデータも収穫できることは、小さな母数でも大人数の人々のデータを収穫できることを意味しています。Koganは最終的に約3,000万人分のデータを収穫しました。CAは各ユーザーのFacebookデータを使用して、ユーザーの性格を推定しました。個性を定量化するために、前述の「Big Five」モデルを採用したのです。

2010年から2017年の間にFacebookで働き、有権者の行動を研究したMITスローンスクールオブマネジメントの計算社会科学者であるDean Ecklesは、Facebookのデータのみを使用して、誰かのビッグファイブ特性のあり方を構築することが可能であると説明します。彼は、心理的ターゲティングは、まったくターゲティングしない場合と比較して説得力を高めることができると考えています。しかし、Big Fiveと他の一般的に研究されている性格特性の違いは、人々が前者のターゲティングにより活発に反応することを説明するものではないと彼は言います。

Facebookは、かつて、ユーザーの性格をプロファイリングし、その情報を使用して広告をターゲットすることを特許出願し、ユーザーへの適用を検討したことがある、とBBCは報じました。Dean Ecklesは、2012年に最初に出願されたこの特許の申請者の一人です。特許関連情報サイトJUSTIAによると、特許は「ユーザーのテキストから言語データを取得し、推測された性格特性は、ユーザーのプロファイルに関連して保存され、製品のターゲット設定、ランキング、バージョンの選択、およびその他のさまざまな目的に使用できます」と説明します。

特許の出願者であると同時にFacebook社内で生データに触ることができたEcklesは、Koganが採用した手法に懐疑的です。CAがFacebookのインハウスのターゲティング機能に加えてパーソナリティアプリで簡単な質問で得た知見を追加すると、ターゲティングの精度が低下した可能性がある、とEcklesはWiredの取材に回答しています。Ecklesは、アンケートを通じて心理特性を測定しても、それは、インタビュイーが本当に気にかけていることを測定できない場合があり（正直な回答を得られないような場合）、さらに、別のデータセットを使用してアンケートの結果を予測したとき、それは、Facebookの「いいね」から5つの特性への次元の削減のようであり、他方で多くの情報を捨てている可能性がある、と指摘するのです。「ソーシャルメディアデータに存在する人々の性格の痕跡はいくらかありますが、たとえば、広告主に本当の効果をもたらすデータのほとんどは、Cookieまたは以前の顧客の訪問から得た適切な情報です」と実際にはFacebookで働いていたEcklesは指摘しています。

Christopher Wylie, Via Simon Fraser University (CC BY. 2.0)

Googleのクリエイティブ、広告担当者はかつて、ソーシャルメディアでは、人は自分を偽る傾向が強く、マーケティングの役には立たない、と指摘したことがあります。また、Facebookの広告商品のプロダクトマネージャーを務めたことのある、Antonio García Martínezは著書の『サルたちの狂宴』で、Facebook単体では、広告主を満足させるデータが得られない、と記述しています。同書には、Martínezがデータマネジメントプラットフォーム（DMP）のブルーカイやその他のアドテク企業、データブローカーと面談し、情報を得ていた件があり、それが数年後にFacebookの広告商品に組み入れられています（関連ブログ）。

つまり、性格ベースのプロファイリングが、Facebookが既に提供している人々をターゲットにする無数の他の方法よりも良いかどうかは明確ではありません。たとえば、Facebookは広告の自動最適化機能を提供し、さまざまデータソースから収集したデータを使用して、広告がクリックなどのアクションにつながるために最適なタイミングを予測します。収集元はサードパーティCookie等から獲得したWebの閲覧記録から、他のアプリベンダー、トラッキング業者との協力により獲得したモバイル行動のログ、データブローカーのオフラインデータとのマッチング等多岐にわたります。

このようなFacebook広告の機能は、Big Fiveなどのモデルよりも多くの次元でユーザーをセグメント化できます。消費者メーカーと広告代理店とのもみ合いの中で磨き上げられたFacebookのターゲティングは、心理ターゲティングを活用する必要性がないのです。

Facebookのデータがなくとも心理プロファイリングは可能

ケンブリッジアナリティカのCEOのAlexander Nixはサイコグラフィックマーケティングを使用しているとプレゼンテーションしてきました。しかし、NixはKoganの手法が役に立たなかったという発現を英国議会でしてもいるのです。

しかし、企業は、人々の性格のモデルを構築するために、Facebookの「いいね！」を必ずしも必要としません。前述したKosinskiらの2013年の研究によると、広告主は、人のデジタルフットプリントの他の側面をマイニングして、Twitterフィード、閲覧履歴、電話等の行動パターンなどを調べることができます。Kosinskiらの研究では、これらのデータはさまざまな結果を示していますが、性格を予測できることが示唆されています。

たとえば、米国に拠点を置く会社Crystalは、そのWebサイトによると、公開データを分析することで人格プロファイルを予測します。ロンドンに本拠を置くVisualDNAは、Webサイトで心理的プロファイリングも使用していると語っています。これは、4000万人が回答した性格クイズに基づいています（どちらの会社もケンブリッジアナリティカには関与していません）。CAは、人口統計情報と投票履歴、テレビ視聴習慣、購入パターンに関するデータを含むデータベースを使用すると主張しています。これらはすべて米国でデータブローカーから合法的に購入できます。

ただ単にFacebookのターゲティング機能に依存していた可能性

その後、ケンブリッジアナリティカは、Facebookの「カスタムオーディエンス」機能を利用し、Facebookを主に広告配信ツールとして使用して、他のデータを使用して構築された心理学的モデルに基づいて選択された特定の人々に、性格に合わせた広告を表示することができたのは確かです。

カスタムオーディエンスとは、Facebookで広告を出稿するときに、広告主が独自に保有している顧客データとFacebookのアカウント情報を照合することで、ユーザーを絞り込んでターゲティングできる機能を指します。カスタムオーディエンス機能に含まれる類似オーディエンス（Lookalike）機能を使用すると、プラットフォームが特定のグループに類似していると他のユーザーを見つけることができ、プロファイルしていないユーザーをターゲットにすることさえできます。つまり最初に抽出したユーザークラスタと類似したクラスタを拡張できるため、CAは手元で膨大な有権者の分析をしなくても済んだのかも知れません。

つまり、パーソナリティプロファイルモデルを使用せずに、Facebookの機能に依存して広告をターゲティングし、事後的に「心理ターゲティング」と自慢できるということです。ノースカロライナ大学の政治学者 Timothy Ryanは、ケンブリッジアナリティカが使用する広告のサンプルを見たことがあると言います。「それらは、ビッグファイブの特徴を念頭に置いて調整されているようには見えませんでした」と彼は言います。

CAがその広告方法を明らかにすることはほとんどありません。学者とジャーナリストのグループがCAからデータを取得しようとしましたが、会社は秘密を守るために自らを閉鎖することを選択しました。

一部の科学者は、プロセスをリバースエンジニアリングできる可能性があると考えています。しかし、2016年の米大統領選挙で起きたことは、CAだけで完結せず、もっと複雑なできごとが起きていました。ソーシャルメディアは悪用されましたが、その形跡は大量のデータとして残っています。悪意の人々がソーシャルメディアを使い人々を操作しようとしていたことへの探求は今も続いています。