Hadoop
big data
baseball statistics big data

サンフランシスコジャイアンツがオフシーズンに獲得した大物の名, それはHadoop(?)

次の記事

電球をインターネットに接続したSparkプロジェクト–一体何ができるのか?

[筆者: Barry Eggers]
BarryEggers

編集者注記: Barry EggersLightspeed Venture Partnersの常務取締役で、主に情報技術のインフラ方面に力を入れている。とりわけ関心を向けているのは、クラウドコンピューティング、ビッグデータ、ストレージ、ITの消費者化、そしてネットワーキングだ。彼をTwitterでフォローするには、これで。

野球は、ほかのスポーツにも増して、記録しているデータ量が多く、管理者には、複雑な統計的処理と情報に基づく意思決定が求められる。だから、企業がビッグデータ革命の洗礼を受けている今、野球がそうであっても意外ではない。ビッグデータを扱う技術はきわめて専門的で、しかも楽屋裏的な運用を想定しているが、平均的な消費者にビッグデータの影響が直接的に及ぶのも、そう遠い未来ではない。たとえば消費者の大好きな野球にも、Hadoopの大量のデータ集合を管理する能力が、変化をもたらそうとしている。

野球の記録データの進化

19世紀末までの野球には、ボールとストライク、ヒット、得点、そして勝敗という概念しかなかった。しかし20世紀の中頃になると、“率”(りつ、パーセンテージ)がむちゃくちゃ重視される。そこで新たに登場してきた概念は、打率(batting average, BA)、防御率(earned run average, ERA)、出塁率(on-base percentage, OBP)、 長打率(slugging percentage, SLG)、守備率(fielding percentage, FLD)などなどだ。そして1970年代と1980年代には、Bill Jamesが一連のBaseball Abstractシリーズを著し、チームの勝利への選手の貢献度を数字で表す新しい方法を次々と編み出した。

Jamesが創造した数字のイノベーションの例は、runs created, RC (解説記事1解説記事2)、range factor, RF (解説記事1解説記事2)、そして“Temperature Gauge”〔直訳: 温度計〕は、選手のホットさを温度で表す(例: ホームランを打つと高くなり、併殺打を打つと下がる)。Jamesが編み出したこれらの測度はその後改良され、たとえばruns createdはweighted runs created-plus, wRC+(重み付きRC…〕になった。それは選手の出塁率と長打率をリーグ平均と比較し、また球場の条件や得点時の環境もパラメータとして取り入れる。これらの数字は、映画化されたMichael Lewisのベストセラー小説Moneyballでも重視されている。どうやらダッグアウトは、ガムを吐き捨てたりゲータレード(Gatorade)を飲み干したりするだけの場所では、なくなっているようだ。

現代の野球

今日の野球では、あらゆるものが数字になる。合衆国の30の球場すべてで、ピッチャーのすべての投球の球種とコースが記録されている。一部の球場では、野手全員の動きが記録されている。とくにSan Francisco Giantsは新し物好き(early adopter)で、メジャーの打者は全員、打球の飛跡チャートを記録され、またヒットは、その球場ごとの“効果率”が記録される。データマニアであることではOakland Athleticsも負けてはいない–数字をゲームの戦略だけでなく、チーム構成の決定にも活用しているのだ。先月、GMのBilly BeaneがArizona DiamondbacksのChris Youngを獲得したのはなぜか?…数字が何かを語ったからだろう。もうすぐ、メジャーリーグの球場ではすべてのヒットの飛跡がビデオカメラで記録される。Panda(Pablo Sandovalのあだ名)も、ビッグブラザーに監視されるのだ。

ビッグデータ時代の野球へようこそ

そして、話はだんだんおもしろくなってくる。これまでの球団は主に、有限個の事象を測定し、複雑な統計をもてあそび、戦術レベルの意思決定のための分析をやってきた。しかし今、チームは無構造なデータを集め始めている。企業が構造化データから非構造化データに関心を移し、そこから競争上有利な戦略レベルの情報を得ようとしているように、野球もまた、そうなるのだ。

今現在、少なくとも一つ以上の球団が、Hadoopの小さなクラスタを評価している。Hadoopは大きなデータ集合の処理をサポートするプログラミングのためのフレームワークだ。GoogleやYahooはすでにそれを使って、Web全体から集めたデータを迅速に分析し、最良の検索結果をユーザに与えようとしている。

大規模な検索なら分かるが、でも野球チームがなぜHadoopのクラスタを必要とするのか? それは、無構造のデータが、これまでどのチームも利用してきた構造性のある事象データからは分からない洞察を、開示してくれるかもしれないからだ。CEOをはじめ、球団の経営者たちは、過去が未来を予言すると信じている。毎日、試合前にデータサイエンティストたちにHadoopのジョブを動かしてもらえば、Bruce Bochy(SFG監督で捕手)は、Prince Fielderに対してMatt Cainに3-1のカウントからどこへ投げさせるかを決められるだけでなく、打球がどこへ飛ぶか、それをヒットにしないためには内野手と外野手の守備位置をどう動かすべきか、まで予測できるだろう。Bochyがもっと進歩すれば、試合中にロッカールームにいるデータサイエンティストに対し、CassandraやHbase、Drill、Impalaなどを使ってリアルタイムの分析をしろ、と命じるだろう。

ビッグデータは野球をだめにするか?

しかし、そこまでくると、ビッグデータが野球をだめにするのでは?という疑問も生まれる。山のように大量のデータを調べて分析することが、野球のおもしろさを奪うか? 私は、そうは思わない。われわれの国技は、Black Sox事件にもめげなかった。指名打者制にも、プルオーバーのユニフォームにも、フリーエージェント制にも、ナイトゲームにも、集団ストライキにも、飛ばないボールの時代にも、飛びすぎるボールの時代にも、そしてもちろんステロイド(筋肉増強剤)にもやられなかった。これらに比べれば、ビッグデータは脅威の名に値しない。

むしろビッグデータは、大都市球団と田舎球団の格差を縮めるだろう。これからは、予測アルゴリズムが優れているチームが強くなる。ベイエリアのチームは、ビッグデータの震源地の真上にいるから、一層有利だ。SFGの熱烈なファンでデータサイエンティストの方は、もうすぐ夢のような仕事にありつくだろう。でも、ベイの向こう側の球団は、すでに人探しを始めているかもしれない。急いで、自分を売り込もう。なぜって、Hadoop彼らも、マスコットが同じだからなぁ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))