ビッグデータの誤解

次の記事

映画「ターミネーター」のように、破壊されると瞬間的に自己修復する素材をNASAが開発

編集部記:Slater Victoroffは、Crunch Networkのコントリビューターである。 Slater Victoroffは、Indico Data SolutionsのCEOである。

私のカスタマーはいつも嘘をつく。何を購入できるかについては嘘を付かない。どの程度カスタマーサービスが必要かに関しても嘘を付かないし、どのくらいの期間で料金を支払えるかについても嘘をつかない。

彼らは、持っているデータ量に関して嘘を付くのだ。

最初、妙なクライアントが一人いるだけだと思った。そのクライアントは毎月十億単位のコールを処理し、「大量のデータストリーム」があると話した。そのような大量のデータを分析するには、高額な費用がかかると私が説明すると、本当のことを話し始めた。彼らは、次の数ヶ月で日に100万コールになるようにしたいと言った。そのような前向きの目標を達成できたとしても、最初に主張したデータ量の100分の1にも満たない。

このような主張をするのは、このクライアントだけではなかった。企業が実際に取り扱うデータ量は、彼らが主張するデータ量の100分の1程度であるという法則を私は見出した。

「ビッグデータ」は「ビッグ」ではない

企業は保有するデータセットの量を誇張する。釣り人が釣った魚の大きさを誇張するのと同じようなことだ。彼らは、止めどないテラバイト単位の情報があると主張する。そう主張する理由は明白だ。情報量が多ければ多いほど良いことだと考えているのだ。

マーケティング資料を見て、データ量が会社に千里眼を与えると思うのだ。従業員のパフォーマンスから自社のカスタマーベースの好みまで、ありとあらゆることに関する深い洞察が得られるという。データが多いほど、人がどのように意思決定をし、何を購入し、何に気持ちが動くかが分かるようになる。そうだろう?

しかし、マーケティング資料とは釣り人のように誇張しているのだ。多くの企業は主張するほどデータを保持していない。そして典型的に、彼らが所有するデータのほんの一部からしか深い洞察は得られないものだ。

「ビッグデータ」の大半は大して便利ではない

何故企業はデータ量を偽るのか?自社を大企業のように見せたいからだ。AmazonFacebookGoogleのような企業が大量のデータを収集して所有しているという話を聞いているのだろう。企業はそのような大量のデータを集めるリーチがないにも関わらず、更にはデータを購入する資金がある訳でもないが、そのトレンドに乗りたいと考えているし、他社にもそう思われたい。データアナリストのCathy O’Neilが最近投稿したブログ記事にはこう記されている。多くの人は「普通のテクノロジー企業にデータを振りかければ、次のGoogleになると考えている」と。

しかし大企業でも、大量に集めたデータのほんの一部しか利用していない

ビッグデータは「ビッグ」でもなく、良いデータは更に少ない。

Twitterは、 一日8テラバイトの情報を処理している。その数値は、ツイートから何か洞察を得ようとしている小さな企業を圧倒するだろう。しかし、ツイートの実際のコンテンツはどのくらいのデータ量だろうか?Twitterのユーザーは 毎日5億のツイートをしていて、ツイートの平均文字数は60文字だという。簡単な計算をすると、実際のテキストコンテンツはたった30ギガバイト分だ。8テラバイトの1%の更に半分にも満たない。

このパターンは他でも見られる。Wikipediaはインターネット上で最も多くのテキストデータを保持しているが、全てのテキストデータは一つのUSBに収まる程度だ。世界中にある全ての音楽も600ドル程度で購入できるディスクドライブに収めることができる。似たような例は他にもあるが、重要なことは、ビッグデータは「ビッグ」でもなく、良いデータは更に少ないということだ。

スモールデータを最大限に活かす

もし大量のデータセットが役に立たないのなら、何故それが話題になるのだろうか?何故なら、全ての人の役に立たないということではないからだ。ディープラーニングのモデルを使用することで、ノイズとサインを区別し、専門家が体系化するまで数ヶ月かかるようなパターンを見つけたりすることができる。しかし、一般的なディープラーニングモデルは、ラベルが付いた大量のデータが必要だ。そして、大量のデータセットにラベルを付けるには、何万ドルもの費用と何ヶ月もの期間を要する。その仕事はFacebookやGoogleといった大企業が行うべきだろう。多くの小さな企業はこのことに気づかず、購入しても使い道のない大量のデータ容量を取得するのだ。

このような企業には別の選択肢がある。既に保持しているデータから価値を見出すことができる。

確かに、ほとんどのディープラーニングのアルゴリズムは大量のデータセットを必要とする。しかし、私たちは人が推論するように、少量のデータからでも傾向を導きだすようにそれを設計することができる。転移学習を用いることで、大量のデータセットでアルゴリズムを精錬した後に少量のデータ分析を行うことができる。これで学習プロセスが100倍から1000倍も効果的になる。

ビジネス目的に転送学習を活用しているスタートアップをいくつか取り上げる。

  • DatoGraphLab Createというプラットフォームは、大量の画像を瞬時に認識して分類することができる。ユーザーは既に鍛えたディープラーニングモデルを使用して、既知の特徴を判断するのに応用することができる。あるいはImageNetなどのデータセットを活用して自分たちで新しいモデルを構築することもできる。
  • Clarifaiの画像認識APIは、画像に説明文をタグ付けすることができる。そうすることで写真アーカイブの検索が楽になるのだ。彼らのディープラーニング・アルゴリズムは、ストリーミング動画でも機能し、広告主がユーザーが視聴したばかりのコンテンツに関連する広告を配信することが可能となる。
  • MetaMindのAIプラットフォームは、個人が発信したブランドに対するツイートの内容がポジティブかネガティブなものかを判断する。また、そのツイートを囲むTwitterの話題の主要なテーマを特定することができる。カスタマーの意見から洞察を得たい企業は、何千のアカウントから集めた年齢、性別、位置情報のデータより便利なものとなるだろう。

これらのサービスを利用するのにプログラマーである必要もない。Blockspringでユーザーはコードを一行も書かずとも、ExcelのスプレッドシートだけでAPIを組み合わせることができる。

このような選択肢がある中、テラバイト級の大量のデータを購入する意味が薄れる。また、誇張する必要もまるでない。

データの未来は「ビッグ」ではなく「スモール」なことは明確だ。

[原文へ]

(翻訳:Nozomi Okuma /Website/ twitter