十数年前の一般公開以来、Twitterは友人同士のソーシャルネットワーキングプラットフォーム、スマートフォンユーザー向けのインスタントメッセージングサービス、企業や政治家向けのプロモーションツールとして使用されてきた。しかし、Twitterはまた、人間が複雑な社会システムの中でどのように感じ、機能するかを研究したい科学者にとってかけがえのないデータソースでもある。

ツイートを分析することで、制御された実験室実験の外で、「野生の」何百万人もの人々の社会的相互作用に関するデータを観察し、収集することができるからだ。では、どうやってTwitterは計算社会科学者にとってこれほどユニークなリソースになったのだろうか。

2006年7月15日、Twitterは「SMSを使用して友人のグループがランダムな思考を振り返るのを支援するモバイルサービス」として公開された。時間が経つにつれて、ユーザー数は爆発的に増加した。2009年の2,000万人から2012年の2億人、そして今日の3億1,000万人である。友人と直接通信するのではなく、ユーザーは自分の気持ちをフォロワーに伝えたり、ニュースに肯定的または否定的に反応したり、冗談を言ったりする。

研究者にとって、Twitterの最大の贈り物は、大量のオープンデータの提供だった。 Twitterは、アプリケーションプログラミングインターフェイス(API)と呼ばれるものを通じてデータサンプルを提供する最初の主要なソーシャルネットワークの1つであり、研究者が特定の種類のツイート(特定の単語を含むツイートなど)とユーザーに関する情報についてTwitterに照会できるようにする。これにより、Twitterのデータを活用する研究プロジェクトが爆発的に増加した。

Twitterの寛大なデータポリシーは、間違いなく会社の優れた無料宣伝につながった。Twitterのデータを用いた興味深い科学研究が主流メディアによって取り上げられたためだ。

国勢調査データの収集には時間がかかり、費用がかかるため、Twitterなどのオープンデータフィードは、大規模な人々の変化をリアルタイムで確認できる可能性があった。たとえば、Twitterの単語の使用を人口統計と相関させることで、都市の基本的な社会経済パターンを理解するのに役立った。単語の使用法を肥満などの健康要因とリンクさせることができるため、ソーシャルメディアの投稿の「カロリー」を測定する試みをすることもできる。高カロリー食品に言及した特定の地域からのツイートは、その地域の「カロリー量」を増加させましたが、運動活動に言及したツイートは数値を減少させた。 この単純な測定値は、他の健康指標と幸福度指標と相関することがわかった。言い換えれば、ツイートは、特定の時点で、都市または地域の全体的な健康状態のスナップショットを提供することができたのだ。

他にも金融市場の予測のためにTwitter上のテキストを自然言語処理にかけ、場合によっては金融商品の売買を即時的に実行する試みも存在した。言語データは意味が曖昧で複雑なことから従来は処理が難しいとされていたが、今では文章だけでなくその文脈を読む手法も開発されている。自然言語処理の進化が、金融市場の特徴を抽出する手段を多様化している。

それでも、多くの課題が残っている。ソーシャルメディアデータは、非常に低い「信号対雑音比(SN比)」に悩まされる。言い換えれば、特定の研究に関連するツイートは、しばしば無関係な「雑音」によってかき消される。

ソーシャルメディアのデータは、小規模のサンプルであり、すべてを代表していないとしばしば批判される。統計モデルでこのような歪んだデータをどのように説明するかを考え出すことは骨が折れる。毎年多くの人々がソーシャルメディアを使用して何らかの洞察を得ようとしているが、このデータのバイアスを理解し続ける必要がある。より良いバイアス補正方法を開発した後にのみ、ツイートから完全に自信を持って予測を行うことができる。

他方、市民を扇動するソーシャルボット等の好ましくないTwitterの活用方法が顕在化しており、このような穴を塞ぐための努力も怠ってはいけなくなっている。