vark
aardvark

ソーシャル検索に関するおもしろい知見を盛り込んだ研究論文をAardvarkが発表

次の記事

Chrome OSとiPadは競合しないと思う人はこのビデオを見よ

1998年にLarry PageとSergey Brinが発表した論文[PDF]は、Anatomy of a Large-Scale Hypertextual Search Engine〔仮訳: 大規模ハイパーテキスト検索エンジンの構造〕と題され、Googleの中核的な技術の概要とPageRank(ページのランク付け)の理論が述べられていた。それから12年後の今日(米国時間2/1)、ソーシャル検索エンジンAardvarkを支えるチームが、検索のソーシャルな側面を考察する研究論文Anatomy of a Large-Scale Social Search Engine〔仮訳: 大規模ソーシャル検索エンジンの構造〕を発表した。この論文は、WWW2010に受理されたが、前述のGoogleの論文も同じくこの会議(WWW1998)で発表された。

論文の全文は米国時間2月2日太平洋標準時午前9時にAardvarkの公式ブログに掲載されるので、誰もが読むことができる。控えめに言ってもたいへんおもしろい論文であり、Aardvarkなどのソーシャル検索エンジンをGoogleとその同類たちに対する強力な補完機能とするための基本原理が述べられている。論文はAardvarkを’村の’検索モデルと呼び、そこでは答えがソーシャルネットワーク内の人から得られる。これに対しGoogleは’図書館の’検索に属し、そこでは答えが既存のテキストの中にある。論文は全文を読むに値する内容だが(しかもかなり分かりやすい)、ここではいくつかのキーポイントを紹介しよう:

  • Googleのような従来の検索エンジンでは、情報の’ロングテイル'(long-tail)はきわめて入念なクローラを使って得られる。Aardvarkでは、情報の幅は、ものごとをよく知ってるユーザがどれだけいるかに依存する。そこでAardvarkは、“知識ベースの増強のためには、良質なユーザ経験を作り出すことによって、ユーザが長時間アクティブであり続け、友人を招待したくなるようにし向けることが不可欠である”と結論する。これは、Aardvarkの今後の最大の課題である。
  • ユーザがよく知っている話題について尋ねるだけでなく、Aardvarkはユーザの過去のブログ投稿、オンラインのプロフィール、トゥウィートなども調べてユーザが知っている話題を同定する。
  • ユーザとユーザの友人が共にある話題について知っているようなら、システムは、そのユーザを、彼/彼女一人だけがグループ内でそのものごとを知ってる場合よりも「よく知っている」と想定する。
  • Googleのようなエンジンの上の情報に対するユーザの信頼は、情報源の権威に関連しているが、Aardvarkにおける情報源に対する信頼は、情報を与える人とユーザとの親密度や関係のあり方に基づいている。
  • 検索過程のある部分は、Aardvarkの技術のほうが従来の検索エンジンよりも容易である。Googleでクェリをタイプすると、エンジンは答えのある正しいWebサイトをユーザに提示しなければならない。Aardvarkは、ユーザに知識ではなく、その話題について知っている人を提示するだけである。Aardvarkは答えを見つけることには配慮せず、クェリの言葉遣いに対してもより柔軟である。
  • 2009年10月現在でAardvarkのユーザ数は90,361、そのうちの55.9%がコンテンツを作った(質問をしたか、または答えた)。クェリの数量は1日平均3,167.2件である。アクティブユーザのメジアンでは1か月に尋ねる質問数が3.1件である。おもしろいことに、モバイルのユーザのほうがデスクトップのユーザよりもアクティブである。ケータイのユーザは、話題を深く掘り下げるよりも、簡単迅速に答えを求めるためと思われる。またクェリの言葉遣いは、ケータイ上のほうがより自然言語的である。
  • クェリの長さは平均18.6語(メジアンは13語)、これに対し従来の検索エンジンのクェリは2.2〜2.9語である。この違いは、ユーザが自然言語を多く使うことにも由来している(”a”、”the”、”if”などがよく使われる)。また、ユーザがクェリに文脈情報を多く入れることにも原因がある…質問を人間が読むことを知っているので、文脈情報があったほうが良い答えが得られると期待するのである。
  • Aardvark上の質問の98.1%がユニークであるが、従来の検索エンジンではクェリの57〜63%程度がユニークである。
  • 質問の87.7%が答えをもらっている。60%近くが、10分以内に答えを得ている。メジアンの回答所用時間は6分37秒、1つの質問が受け取る答えの数は平均で2である。答えの70.4%が’良い’と見なされ、14.1%が’まあまあ’、15.5%が悪いと格付けされている。
  • Arrdvarkが質問に答えるよう求めたユーザは、全ユーザの86.7%である。その70%が実際に質問を見て、38%が答えることができた。全会員の50%が1回は質問に答えている(それは、このサイトとの対話経験を持つユーザの75%である)。ただし、答えの85%はユーザの20%が答えている。

[原文へ]
[米TechCrunch最新記事サムネイル集]

(翻訳:iwatani(a.k.a. hiwa))