oneriot
crowdeye

昔はライブWeb検索、今はリアルタイム検索, 呼び名は変わってもまだまだ問題山積みの技術

次の記事

オバマのオープンな政府は悪用に対して無防備か?

このゲスト記事を書いたMary Hodderは、Dabbleのファウンダだ。Dabbleの前はコンサルタントとして多くのスタートアップに助言し、Technoratiで研究職を勤め、バークレイ(カリフォルニア大学バークレイ校)ではブログデータに対するライブ検索をテーマに修士論文を書いた。


Hands on clock

リアルタイム検索は新しいものではない。それは私たちが少なくとも過去10年手がけてきた問題であり、今後の10年間も解を目指して苦闘し続けるだろう。私たちが”ライブWeb検索”と呼んできたこの問題は、実に難しい問題だ。なお、ライブWeb検索(live web search)という言葉は、Doc Searlsの息子であるAllen Searlsによる造語で、ライブWebとは今生きているWebという意味であり、検索も含めてあらゆる要素に時間成分がある。

名前が”リアルタイム検索”に変わったことにより、フィルタの重要成分としての時間がなお一層強調されたように思える。そして今直面している問題は、私たちが10年あまり抱え続けた問題と同じである。Erick Schonfeldが先日名前を挙げたどの会社も、昔ライブWeb検索に取り組んでいた会社と違うことはやっていないみたいだ。今の彼らも問題の最初の部分で間違いを犯しているようだし、実際にやっているのはリアルタイム検索ではなく‘最近検索’なのだ。もちろん苦労して作ったシステムであることは認めるが、問題解決のレベルという点では、昔のライブWeb検索の連中と比べて一歩も前進していない。今の連中は全員が逆時系列のビューを作り出し、Twitterに毛が生えたようなものを提供している…“毛”の部分は、ブログのデータ、Twitter以外のマイクロブログのデータ、写真、最新トレンドの上位リストの作成、といったものだ。その一部にはコンテキストがあり、一定時間内のアクティビティ数や、トレンドがヒストグラムに登場していた時間などを出力する(後者はCrowdeye)。これらはいずれも、TechnoratiやSphereが昔実験していた。また、何かへのリンク数や‘つぶやき’の数を表示するものもある。しかしこれらはすべて、スパムなど関係ないアクティビティの餌食になりやすく、ユーザ経験を劣化させ、ユーザが完成製品に期待する、真のコンテキストと良質なフィルタをもたらさない。全員が、私たちがすでにブログ検索とトピック発見で学んだことを、あらためてまた学習する必要に迫られていると思われる。

1999年ごろから、Pyra(Bloggerの前身)、Moveable Type、WordPress、Flickrなど、誰もがWeb上に文章などを出版できるためのシステムが、出版対象に時間データを付けるようになった。それと並行して、Technorati、Sphere、Rojo、Blogpulse、Feedster、Pubsubといった、検索や発見のシステムも、出版されているものの時間データを指定できるようになった。私が今思い出せるのはこの程度だが、実は私は2004年に10か月ほどTechnoratiの社員をやっていたし、そのほかのところに対してもいろいろな形でコンサルタントやアドバイザーとしての仕事をした。

私がこの問題に最初に取り組んだのは1999年、まだUC Berkeleyにいたころだ。そして結局修士論文も、Webデータのライブ検索とSIMS(今のiSchool, 情報科学専門大学院)におけるトピック発見の研究がテーマになった。2000年から2004年にかけて、SIMSの連中は私にこう言っていた: “ブログやデータ…“コード”でなく…を相手に何をやってるんだい? なんかヘンだよ。そんなもののどこが重要なの?”。しかし、当時の検索に欠けていた時間という要素は、私をとりこにしていた。時間という要素によって、何かがニュースになるし、短い時間内の情報をグループ化して特定の話題や活動の盛り上がりを検出できる。それは、従来のニュース報道にはなかった切り口だ(最近ではニュースサイトがWeb上のライブのアクティビティに注目するようになったが)。

Barney said, you have my explicit permission to flickr me, so get your camera..

2005年のバーニングマンで、ある暑くて静かな午後、日よけテントのようなものの下で4〜5時間、ライブのWebとかライブのWeb検索についてBarney Pell(のちのPowersetのファウンダ)と話し合ったことを思い出す。そのやり方、その意味、時間をどのように理解しユーザに提示するか、どこまでが発見でどこからが検索か、どの程度構造化されたデータを入手できるか、データの時間に信頼性はあるか、それらのデータからどんな意味を取り出すのか、などなど話題は尽きなかった。そばにSergey Brinがいて話を聞いていたが、2時間後にこう尋ねた: “ライブWebとかライブWeb検索って、それは一体なんだい?”。そのときBarneyと私はすでに相当つっこんだ話をしていたから、Sergeyも分かって聞いていると思っていたので、その質問は意外だったが、私は時間がこれまでの検索の大きな欠落要素であること、私が時間要素を含む検索を研究していることを、あらためて彼に説明した。Barneyと私はそれからさらに2時間話を続けた。涼しくなり、アートを愛(め)でに行く時間になったので、そこで会話を終えた。でもそれから数年間は、GoogleはライブWebに関して何をしているのか、いつか私に声をかけてくれるだろうか、と考えていた。最近では、Twitterがやっと彼らの尻に火を着けたようだが。

2006年に、“The Living Web”と題するNewsweekの特集記事をSteven LevyとBrad Stoneが書き、全国レベルで初めてこの問題が取り上げられた。

私は最近の検索スタートアップたちのやってることを見るたびに、なんで昔と同じことばっかしやってんの?と思う。まるで、車輪の再発明じゃないの? データに関して、あるいはインタフェイスに関して、もっとオリジナルなことをやってる人はいないの? バックエンドやUIに関して、私たちが学んだことを踏まえて何かを構築する人はいないの?

率直に言って、今あるフィルタはひどいものだ。名前を変えることによって考え方が変わり、もっと良いフィルタができるのなら嬉しいのだが。フィルタが良くない責任は私にもある。この問題を考えるにあたって、ライブWebとかリアルタイムといった言葉(名前)を流行語にしてしまったのは、この私だから。われわれは思想やビジョンにタイムスタンプを付けて発表することは得意だが、それらをフィルタリングすることは上手でない。昔の情報検索や発見は、新聞や雑誌を開いて、編集者たちがフィルタにかけて配置したページをめくっていくことだった。そして終わったら、“よし、これで分かった”と言うのだ(ほんとに分かったかどうかはともかくとして)。しかし、メディアは次第に自己満足的になり、記事が粗略になるに伴い、それと反比例するかのように、ブログやFlickrのようなサイトが、万人が容易に参加できるメディアとして栄えている。今や私たちの情報ニーズは、紙ではなく全体としてのWebによって満たされる。唯一の問題は、全体としてのWebが巨大な玉石混淆であることだ。Webは、巨大な雪崩のようだ。私たちは、Webに昔の印刷媒体のようなフィルタと良質な編集努力がないことを懸念する。

私は同じ調査を、2002年、2004年、2008年の計3回した。Craiglistの広告からランダムに選んだ30名に、オンラインの情報摂取の実態を1週間記録してもらうのだ。その結果、彼らがニュースサイトや情報サイトで過ごした時間は、2002年で1.25時間、2004年で1.85時間、2008年で2.45時間となった。シリコンバレーの人たちではないが、家庭にブロードバンドがあって合衆国に住んでいる人びとだ。調査対象の誰もが、必要な情報を得るまでに接しなければならない情報の多さに、不満を表明していた。時間が年々増えているのはそのためだ。彼らは、そういう無駄な情報に接する時間を減らすためにはフィルタが重要、という認識を持っていない。

Erickが指摘したように、この問題の解決には記憶と意識との間の緊張関係がつきまとう。Bob WymanとSalim IsmailはそれをPubSubこう呼んだ: 後ろ向き検索と見込み検索。このことも問題の一部だが、しかしそれだけではない。

発見には、時間成分が必ず伴う。ユーザが、今これからまさに出てくるものを、前もって知っているとはかぎらない。むしろ、新しいものの名前や、それを表す語句を、ユーザが事前に知っていることはほとんどない。ある「時間」を境に、無知が知に変わる。それが発見だ。

しかし同じマイケル・ジャクソンでも、”michael jackson”と言う人や、”MJ”を使う人、”king of pop”と呼ぶ人など、さまざまだ。これらの異なる語句や名前が、同一のトピック(話題)を指している。でもマイケル・ジャクソンの場合はまだましだ。2003年にあるライブWeb検索製品のユーザビリティテストをしたときは、調査対象のユーザに、Google NewsといくつかのライブWebシステムで、オーストラリアで見つかった“巨大な海洋生物(giant sea creature)”を検索してもらった。でも、どのメディアもオーストラリア発の同じニュースを載せていて、そこでは“ばかでかい烏賊(いか)(massive squid)”という言葉が使われていた。その後のブログ記事などもすべて、オーストラリアの記事をそのまま引用しているので、“巨大な海洋生物(giant sea creature)”という言葉はどこにもない。ユーザたちは求める情報を得るためにクリエイティブに考えることを強いられたが、“巨大な海洋生物(giant sea creature)”から“ばかでかい烏賊(いか)(massive squid)”を思いつく意味的飛躍(semantic leap)は、天才でも無理だ。調査に参加したあるユーザは、とてもまじめで絶対にギブアップしないタイプの人だったので、最後には泣き出してしまった。私たちは彼女に、もうやめるよう懇願したが、それは痛ましい事件だった。「検索」よりも前に、良質な「発見」があれば、彼女は救われただろう。

発見とライブWeb検索の、もう一つの重要成分は、(実時間に沿った)構造性のあるデータを得ることだ。Googleなどが彼らの後ろ向き検索のために使っているスパイダー(spider)というツール〔Web全域に対して各種キーワードのインデクシングを行うソフト〕では、情報が発表された時間を知ることが難しい。スパイダーがいつそのページをインデクシングしたかは分かるが、それは発見を助ける時間情報ではない。これに対して、Twitterのデータには構造性がある。情報がストリーミングされる時間とその情報の発表時間は同一だから、ストリーム全体が一つの構造化データだ。また、TwitterのAPIを使ってそのデータを利用できる。これは、検索のための意味を取り出すための、もっとも効率の良い方法だ。なぜなら、時間という軸があるので、情報の各片のコンテキストをユーザが確実に知っている状態で検索や発見ができるからだ。Googleがつかまえてくる情報片の集合では、それができない。

意味と、リンクの適切な測度(フィルタがリンクに与える測度)を実現するためには、バックエンドの検索用データベースにも正しいデータモデルが必要だ。ものごとの、ユーザにとっての意味(技術者にとってではなく)を知り、スパムや悪質なデータを選り分けるためには、多様なコーパスの理解が必要だ〔例:10代女の子語のコーパス〕。データにはその元々のコンテキストがあるから、そのUIも、多くのユーザにとって時間を分かりやすく見せようとするときには相当難しい。というより、時間成分を通常のユーザに伝えることはとても難しいから、時間を中心的な対象とする検索は“高度な検索”に属する問題だと考える人もいる。

設計のまずいシステムでは、ユーザの検索から不自然でゆがんだデータが生まれることもある。システムに権威や人気度でデータを選別するフィルタがあるとき、データは巾乗則にしたがって分布する(Technoratiは自分たちの測度を”権威”と呼んでいるが、ブログからのインバウンドリンクの数は権威ではなくて単なる人気の測度だ)。巾乗則効果とは何だろう? それは、システムの不自然な振る舞いの結果として現れる検索結果だ。たとえば、あるフィルタが検索の上位項目をクリックする人の数を数えるとすると、クリック数が多くなればなるほど、そのアイテムは検索のリストの上位に長くとどまることになり、それがとっくに上位から消えていてもおかしくないアイテムだったら、不自然な結果になってしまう。あるいは、ユーザの恣意的な想像に駆動された行為、たとえばTwitter上の発言のようなものを数えるフィルタの場合は、そのフィルタによって上位に来たアイテムはあまりアクティビティを誘発しないものになる。しかし、人気度でフィルタされたデータをユーザに見せると、逆に元々、あるいは本当は、関心のなかったアイテムであっても、それに関するおしゃべりを開始することがありえる。つまり、システムが実装している測度次第で、その後のユーザの振る舞いが変わったり不自然に偏ったりすることがある。いわゆる巾乗分布は、そうやって、見せられた測度が人の振る舞いを変えることによって生ずる…“人気が人気を呼ぶ”という形の…分布だ。それはループ(loop,同じことの繰り返し)になる。しかし、そういう現象が起こっていることは、結果そのものからは分からないから、単純に数を数えるというタイプのフィルタは、あまり頭の良いやり方とは言えないのである。

たとえば、Om Malikのインバウンドリンクを数えて、それがどんな話題でも権威と呼ぶなら、彼がたまたまブログ記事にモダンダンスとか金属工芸について書いていたらその分野でも権威になってしまう。ブロードバンドに関してなら、彼はまぎれもなく権威だが。しかしTechnoratiやOneRiotのように話題や状況の違いを無視してリンク数などの測度を数えるサービスでは、検索結果からコンテキストが消え、ユーザはまったくランダムな情報を見ることになる。彼らがWeb全体にどんなフィルタをかけても、それによってユーザは本当に役に立つ情報を選り分けることができない。そこで、トピック(話題)のコミュニティというものが助けになるのであり、良質な編集者のようなフィルタ、人間の能力によって行われているフィルタを見つけたら、それを手放してはいけない。それこそが、時間と労力の真の節約になるのだから。

私は、ライブWeb検索、リアルタイム検索、あるいは‘最近検索’すら、実現はまだまだ遠い先だと思っている。私は、現状に関して何ら幻想を持っていない。発見という問題も、解決にはまだほど遠い。しかし、それは今のWebでとても必要なものだから、そう長く待たされることもあるまい。ビジネスとしても、将来性はきわめて大きい。それは、今は人力で行われている編集者的能力のあるフィルタを、アルゴリズムで実現するという課題だ。また、それによって、大衆のアクティビティに偏りを作り出さないこと。それが実現したら、あなたがもらえる賞金は莫大だ。

[原文へ]

(翻訳:iwatani(a.k.a. hiwa))