このゲスト寄稿の著者は、オンデマンド・データベース分析およびビジネス・インテリジェンスのスタートアップ、RJMetricsの共同ファウンダー兼CEO Robert J. Mooreである。同氏の前回の寄稿記事は、Twitterユーザーデータの分析(未訳)。
Chatrouletteが最近メディアのお気に入りであることは驚くにあたらない。そこには優れたストーリーのあらゆる要素が詰まっている。テクノロジー、ミステリー、セレブリティー、そしてセックス。Chatrouletteを聞いたことがないという人には、このDaily Showの紹介が良い入門になるだろう。
私たちはRJMetrics DashboardでChatrouletteを調査したくてうずうずしていたが、分析するためのデータを誰も持っていなかった。そこで、Chatroulette Mapとちょっとしたプログラム、それに情熱的なテックコミュニティーを活用して、自分たちでデータをまとめることにした。すぐに2,883件のChatrouletteセッションの詳細なデータが、ユーザーの地域、性別、容姿等と共に集まった。
調査結果のハイライトは以下の通り。
- Chatrouletteを回して当たる相手の50%はアメリカにいる誰か。次がフランスで15%
- 相手が1人の場合、その89%は男性で11%が女性。
- 女性が1人でいるより、誰も写っていないウェブカムに出会う確率の方が高い。.
- 8%の確率でカメラの向こうには複数の人間がいる。女性の3人に1人は、そういうグループの中にいる。この比率は男性では12人に1人。
- 8回に1回の割合で成人指定(またはそれより悪い)画面が出る。
- 女性のヌードを要求するサインを見る確率は、実際に女性のヌードに出会う確率の2倍。
私たちはこうやって調べた
RJMetricsのおかげで分析は簡単だった。ただしデータの収集は、ちょっとしたチャレンジだった。しかし、ありがたいことにルーレットのホイールは統計屋と大の仲良しだ。中心極限定理によって、十分な回数のランダム測定を行えば、そこに内在するデータ群について高い信頼度をもつ結果を得られることがわかっているのである。
私たちはまず、Chatroulette Mapの処理から始めた。ランダムに選んだChatrouletteセッションのスクリーンショットを地図にプロットしてあるという、すごい新サイトだ。

Chatroulette Map ties Chatters to Locations
あまり知られていないことだが、Chatrouletteでチャットした相手は、Wiresharkなどのプログラムを使えば、こちらのIPアドレスを知ることができる。Chatroulette MapはこのIPデータを使って位置を割り出し、ランダムなチャットユーザーをウェブサイトに(チャット画面の静止画像と共に)表示している。
しかもChatroulette Mapは親切にも「ソースを見る」をクリックした人に、測定地点まで教えてくれる。トップページの生ソースコードの真ん中あたりに、同サイトのマップにある全チャットユーザーの画像URL、維度、経度、都市、州、国名がある。さらにボーナスとして各画像のファイル名が、撮影時のUNIXタイムスタンプになっている。大当たりだ。(注:私たちはChatroulette Mapの作者にこの件を伝えたが返事はない。)
写真、時刻、位置がわかれば、あと必要なのは個々の写真の中で何が起きているかのデータだ。簡単なウェブページを作り、集めたデータからランダムに写真を表示して、その内容について選択式の基本的な質問をした。質問項目には、年齢、性別、写真の人物が何をやっているかなどを入れた。1枚の写真につき異なるIPアドレスから同じ回答が2票集まるまでローテーションするように、プログラムを作った。
土曜の夜、Hacker Newsのサイトにリンクを貼った。2時間以内に、1万770件の写真査定結果が1012箇所のユニークIPアドレスから寄せられた。すべての写真に詳細なプロフィールが付いた。これでデータが揃った。
その5分後、データは RJMetricsがホストするダッシュボードに送り込まれ、以下のデータを得た。
警告
データの説明に入る前に、以下の結果が制御不能なデータによって歪められている可能性があることを指摘しておきたい。
- 私たちはChatrouletteがどうやってチャットユーザーを結びつけているかについて全く知らない。ペアは完全なランダムで作られていると仮定している。
- Chatroulette Mapで使われている方法論について私たちは何も知らない。何らかの理由で測定データを削除したり、サンプル採取がランダムでなかった場合には、私たちの分析結果が歪められる可能性がある。
- IPアドレスによる位置推定は科学的に不完全であり、精度は通常数十キロメートル程度である。さらにプロキシーサーバーその他のテクニックによって、ユーザーがIPアドレスを偽っている可能性がある。
- 人物画像認識は不完全である(私たちの投票集約システムによって緩和されてはいるが)。誤って認識された画像によって結果が歪められる可能性がある。
- 「平均チャットセッション」についての統計(今回私たちが使用しているもの)は、「平均ユーザー」についての統計と同じはないことにも注意する必要がある。例えば、女性のチャットが平均100秒ずつで、男性のチャットが平均10秒ずつだとする。仮に男性ユーザーと女性ユーザーの数が同じだったとしても、男性の方が場に入ってくる頻度が高いために、「平均セッション」に男性チャットユーザーが入っている確率は高くなる。このため、この統計では平均ユーザーではなく、平均セッションを使用している。
結果
性別
予想通り、どのチャットセッションにおいても1人でいる男性に出会う確率が最も高い。チャットセッションの72%が男性単独である。誰も写っていないことが11%あるのに対して、女性1人が登場するのはわずか9%というのも面白い。というわけで、Chatrouletteで女性を探そうと思う人にはあらかじめ警告しておく。空席の椅子に遭遇する確率の方が高い。
これも興味深いのが、Chatrouletteでのグループの台頭だ。全体でチャットの8%にグループが参加している(4%が男性のみ、2%が女性のみ、2%が男女混成)。グループを含めれば、女性と出会う確率は13%に増える。ただしこれは、女性と出会う場合、その3回に1回はグループの一員であるという意味だ。対照的に、男性がグループの一員である確率はわずかに12分の1。
年齢
この分析では年齢を推定できなかった画像は除外した。予想通り殆どがヤングアダルトだった(約70%)。約20%が20歳未満、10%が40歳以上だった。
上で挙げた年齢と性別の統計データを組み合わせた結果、さらに新しいことかわかった。例えば、女性は男性より若い傾向にあり、23%が20歳未満(男性は18%)だった。わずかに3%の女性が40歳以上だった(男性は8%)。
グループの女性はさらに若い。女性のみのグループは65%が「ティーンまたはそれ以下」なのに対して、男性の「ティーンまたはそれ以下」はわずか36%だった。40歳以上のグループは全くみられなかった。
場所
調査したChatroulette参加者の47%が米国からだった。人数の多かった国は以下の通り。
地域に年齢と性別を合わせると、さらに見えてくるものがある。
- イタリアの単独男性密度は98%で最大。「40歳以上男性」の割合も13%で最大(米国の4%の3倍以上)。
- 米国はグループの割合が13%で最大。2位はオランダの9%。
- カナダは単独女性の割合が13%で最大。2位は米国の10%。
ヘンタイ
Chatrouletteを使ったことのある人なら、チャットだけのためにそこにいる人ばかりではないことに気付いただろう。私たちが親しみを込めて「ヘンタイ」と名付けた一部のユーザーは、次の3つのカテゴリーに分類される。
- 一切の衣服をつけていないと思われる
- あからさまにヌードを被露している
- みだらな行為を行っていると思われる
Chatroulette全体でのヘンタイ率は13%。これは、チャットセッション8回につき1回は、画面の向こうに明らかな成人指定物件があるという意味だ。確認されたヘンタイのうち、わずか8%が女性だった。全体での女性比率と合わせると、ヘンタイ女性が登場するチャットは1%以下である。
以下は国別「ヘンタイ率」。
英国はこのランキングを制しており、そのヘンタイ密度は22%である! トルコ、フランス、ドイツが15%で2位を分けあった。世界平均を下げているのが米国で、ヘンタイ率は全体で最低の10%だった。
これも注目すべきは、女性のヌードを要求するサイン(下の写真)を出すユーザーだ。

この種のサインは全チャットの1~2%に現れる。つまり、女性のヌードを要求をするサインに遭遇する確率は。本物の女性ヌードに遭遇する確率の2倍である。
検証
Chatroulette Mapで集めた数千枚の写真を見ていたところ、この実に興味深い画像を見つけた。そこには、このユーザーが自身の数多いChatrouletteセッションの最中に見たものを統計分析した結果が入っている。心当たりのある人はいるだろうか。

このデータは、1090件のデータ群(単独ユーザーとしては非常に目覚ましい)に基づいていると思われる。数値は私たちのデータと概ね一致している(ただし、われわれのデータの方がヘンタイ率が高い)。この背後にいるのが誰なのかはわからないが、このスタイルは気に入っている ― このブログ記事の要点を1枚の画像にまとめるのに成功しているのだから。
結論
データのセキュリティーが、このプロジェクトを困難だが刺激的なものにした。理想的な世界であれば、異なる属性による平均セッション長、チャットユーザーの返答率、コホート分析等さまざまな分析を行うのがすばらしいだろう。主として匿名であるというChatrouletteの性格のため、その種のデータの入手はきわめて困難だ。現状でも、あなたが「Next」ボタンをクリックした時に何が出てくるかを知る上で多少なりとも参考にはなるだろう。
ゲストライターのRobert J. Mooreは、RJ Metricsというオンラインビジネスの評価、経営、収益化の改善を手助けするスタートアップのCEOである。同氏は以前ベンチャーキャピタルアナリストであり、現在ニューヨークのスタートアップ数社のアドバイザーを務めている。RobertはThe Metric Systemでブログを書いているほか、Twitterでは@RJMetricsでフォローできる。
[原文へ]
(翻訳:Nob Takahashi)




