Cinematch Technology
Netflix Prize

Netflixの挑戦にヒントを得て、クラウドソーシングに乗り出すべき5つの業界

次の記事

SiriでPayPalから送金・請求ができる、ほかにもSiriの多様なサードパーティ統合機能あり

【編集部注】著者のDevin Guan氏はDrawbridgeのCTO。

2006年にNetflixは、世界に名の通ったそのCinematch Technologyについて、じっくりと吟味を重ねていた。Cinematchはその名が示す通りのことを行うものだった:利用者が投入したデータによって、このテクノロジーはどの映画をある利用者が楽しむ(あるいは楽しまない)のかを予測することができる。それにより、Netflixは個々のユーザーのためにカスタムメイドされた、パーソナライズ映画レコメンデーションリストを作成することができた。

Cinematchはうまくいっていたが、その舞台裏では、Netflixはその可能性を最大に活かせていないことを気にしていた。そのため、当時の完全に前代未聞の動きとして、Netflixは膨大な匿名レーティングデータを公開し、世界規模の挑戦を募った:Netflixのものを上回る効率のアルゴリズムの開発への誘いである。

Netflix Prizeという名前で知られるようになったその挑戦は、この種の初の大規模なクラウドソースコンペティションだった。このコンペティションは、世界中からレコメンデーションエンジンの価値に対する注目を集める役にたった。まもなく、eコマース企業は類似のテクノロジーを売り物にするようになり、結果として、インターネットは消費者と売り手にとってより良い場所になった。Netflix Prizeはデータサイエンスに対して新しい扉を開き、それを新しい高みへと持ち上げたのだ。

私がNetflix Prizeの賞金100万ドルを手渡してから、およそ10年が過ぎようとしている今、私は新たに5つの業界が、自らの「Netflix Prize」を募るべきときだと考えている(著者は2009年4月から2010年4月にかけてNetflix Prize担当だった)。これらの5つのそれぞれの業界内で使用可能な豊富なデータを利用するための、機械学習を用いたソリューションを目指すクラウドソーシングによって、我々はノイズの中から関連する信号やパターンを見つけて、これらの業界をより効率的にするだけでなく、私たちの生活を向上させるためにより完全なものにしていくことができる。

デジタルセキュリティ

セキュリティ業界、とりわけリスクや不正検出周りの手法は、極めてルール駆動中心の市場である。消費者がオンラインまたは店舗でクレジットカードでの買い物をする際には、カード発行者は、次のような質問を伴う迅速な承認プロセスを実行している:消費者のアカウントが良好な状態か?カードは、消費者に関連性の高い店で使用されているか?店舗の場所は、最近の購入履歴の場所に矛盾しないものか?これらの(更にいくつかの)データ視点に基づいて、取引が承認または拒否される。

これらのルール駆動の認証システムはなはだ不完全で、多くの場合、変化しやすいデータの特性に対して適応することができない。考慮に取り込むことのできる、消費者とそのデバイスに関する遥かに大量のデータが、オンラインとオフラインの両方に存在している。

Netflix Prizeのようなクラウドソーシングコンペティションは、デバイス、時間、そして場所をまたがって、買い手のより完全なビューを提供する利用者のユニークな振舞を明らかにするための、利用者のパターンを共有する機会を提供することができる。究極的には、セキュリティ業界に機械学習を適用することで、セキュリティチームは、不正取引を削減するだけでなく、正しい取引が拒否されないような、適応学習戦略を構築することが可能になる。

健康と薬学

データは、命を救うための鍵だが、現在製薬企業と医療提供者は、主に独自のサイロ(閉鎖された領域)で仕事を行っている。これは重大な健康問題の解決には、不十分なデザインのシステムだ。医学・医療のためのクラウドソーシングNetflix Prizeは、根本的な成果をもたらす可能性がある。

実際に、その効果を支持する証拠は既に存在している。2012年に製薬会社メルクはコンテストを開催した。そこでは数千に及ぶ異なる分子の化学構造データが共有され、科学コミュニティに対して、新しいあるいはより良い薬品へと繋がるであろう物質の特定が、課題として投げかけられたのだ。優勝結果は、業界標準のベンチマークを超える17%の改善を示し、同時に機械学習によって支援される医薬品の研究のための新たな道を切り拓いた。

もしすべての薬物研究からのすべてのデータを入力することができるなら、可能性として薬剤に対するより良い予測を行うことができるだろう。

化学的データを越えて、患者たちは、喜んで医師に提供できる多世代にわたる価値ある家族データを持っている。心拍数の記録、尿サンプル、家族歴、血圧、そして医師のカルテの1ページ1ページなどから。身体は1つの大きなデータサイエンスの夢なのだ。もし私たちが、ビッグデータ機械学習手法をそれら全てのデータに適用したならば、HIPAA(Health Insurance Portability and Accountability Act)が要請する患者の秘密を遵守しながらも、医療の専門家たちはある家系や個人に対して、問題が起きる前に兆候や感受性の有無を発見することができるだろうか?同様に、もしすべての薬物研究からのすべてのデータを入力することができるなら、可能性としては、メルクの例を超えて、薬剤に対するより良い予測を行うことができるだろう。

広告とマーケティング

広告やマーケティングテクノロジーの世界で、すべてのブランド、代理店、そして企業が直面している大きなギャップは、デジタルアイデンティティだ。この問題は、デバイスの世界的な増殖現象に由来している。スマートフォン、タブレット、ノートパソコン、ネットテレビ、スマートウォッチ、そしてコネクテッドカーなどの間で、私たちのデジタル生活は極度に断片化され、そしてインターネット上の顧客体験の大部分は連携していない。

Facebook、Google、Amazon、Netflix、その他の企業は、この問題をログインを強制することで「解決」している。例えば、私のFacebookのニュースフィードは、モバイルでもデスクトップでも同じである; Amazonはデバイス間で一貫して私向けのプロダクトをお勧めしてくる。しかし、インターネットの残りの部分はどうだろう?私がログインせずに、オンラインやアプリの中で過ごす時間はどうだろう?

ここで良いニュースは、インターネットは定義により、データの無限の海だということだ。ブラウザデータ、デバイスデータ、位置データ、利用データ、ネットワークデータ – 十分な量のデータが、データサイエンティストたちの群れを、そうした信号の利用によるアイデンティティの解決へむけて忙しくしている。いくつかの企業は、すでにデジタルアイデンティティのこの問題に対処しているが、オープンスタンダードは、あったとしても、少なく、コラボレーションはとても限られている。

クラウドソーシングによるデータサイエンスコンペティションによって問題が解決されるならば、デジタルアイデンティティは、企業と消費者の双方にとってのオンライン経験を革新することができるだろう。レコメンデーションやコンテンツはパーソナライズすることができ、マーケティングは自動化することができる。クロスデバイス属性はシンプルになり、マーケティング担当者の消費者のビューは、総体的なものになる。

交通・輸送

私たちが日々の通勤で毎朝生み出している、全てのデータのことを考えて欲しい。私たちはWazeへデータを入力し、位置とスピードをGPSで共有する、スピードモニターゾーンを通過し、ナンバープレートの情報までも提供し、交差点のカメラや、料金所で交通パターンが収集される。数百万のドライバーかたのデータが到着し、それ以上のデータがバスや電車からやって来る。

機械学習は、より効率的な輸送環境と体験を生み出すことができる。

もし、通勤時間を最短化するために、あるいは望む時間に正確に着くためには、いつ家を出るべきかを正確に教えてくれるようなオープンソースプログラムを創り出すためのクラウドソースの「Netflix Prize」があったらどうだろう。もちろんGoogle Mapが今日提供できているものよりも優れているものを仮定している。もしこの全てのデータが広くデータサイエンティストたちに利用可能であったなら、データサイエンスを援用して、1日のある時刻に車線をいくつ開けておくべきかを決定することができたり、交通需要に応じて通行料を動的に変化させたり、どのようにモニターを行い交通信号を制御すれば良いか、などを決めたりすることができる。この領域の機械学習は、交通フローを大幅に改善し、より効率的な輸送環境と体験を生み出すことができる。

精密農業

2050年までに 、地球人口は90億人になる。今日に比べて35パーセントの増加であり、別の言い方をすれば、養うための口が20億増えるということである。現在の私たちの農業活動は、その食糧需要に追いついて行くことが可能だろうか?この地球に大きな被害を与えることなしに?環境保護の観点から見るときには、農業は最も競合する活動の1つとなる。作物は水を使用し、農薬を必要とし、私たちの貴重な水に対して窒素や他の廃棄物を送り出す。農業に対して、しっかりしたデータ駆動型アプローチをとるべきときが来たのだ。

気象パターンから土壌の栄養レベルまで、また昆虫の生態データや植物の成長記録さえも。農業関連データは、どの作物を植えるべきかの決定だけではなく、いつ植えるべきか、何処に植えるべきか、どのように収穫して、果ては灌漑をどのくらい行うべきかという決定にも使うことができる。The Farmer’s Almanac(農業年鑑)と人間の勘は、何世紀にもわたって信頼できるソースだったが、いまこの重要なターニングポイントを迎えて、この先農業をより精密な科学に転換し、私たちの種を守ることができるだろうか?機械学習と革新的エンジニアリングを融合させた、クラウドソースのソリューションを実施することにより、今後の世代をサポートするための持続可能なソリューションを構築することができる。

10年前、Netflix Prizeはデータと科学を使いレコメンデーションエンジンをより良いものへと変革した。アルゴリズムに基づく知性は、私たちが画面で見る物を変えた。もしおなじコンセプトを他の業界に適用したら何が起きるのだろうか?ここに挙げた5つは始まりに過ぎない。

(日本版注:Netflix Prizeは大きな技術的成果も挙げたものの、プライバシーに関する課題も提起した。匿名レーティング情報でも他のデータソースと付き合わせることによって個人を特定できる場合があるという研究が発表されたのだ。2009年12月にはこのコンペティションに関係して、Netflixユーザーからプライバシーを巡る訴訟を受けている。なおこのときは示談で解決した。もともとNetflix Prize 2が企画されていたが、こうした動きを受けてNetflix Prize 2の企画は2010年3月にキャンセルされている:参考 Netflix Prize (Wikipedia)。クラウドソーシングでなくても、大規模データを扱う現場にはこの先も常にこうした懸念がつきまとうだろう。TechCrunchでも最近「それで良いのかGoogle(Not OK, Google)」という記事を掲載している)

[ 原文へ ]
(翻訳:Sako)