twine
semantic search
radar-networks

Twineのセマンティック検索エンジンT2を見る–ホームランねらいの大振りだがやる価値あり

次の記事

新訴訟でIPをめぐるSkype(当時のeBay)の数十億ドルの大ドジが明らかに, 今後はさらに泥沼も

Webから意味を取り出すことは大仕事だし、大規模にそれをやるのは至難のワザだ。従来の単純なキーワード検索は、Webページに閉じこめられている意味の表面をかすめるだけで、さわりもしない。さまざまなセマンティック検索の技術は、Webページに構造的なデータを加えてより深い検索を行おうとし、いわばWebを一種のデータベースのように扱う。しかし、Webにセマンティックなメタデータを加える作業は膨大な労力と時間を要する。たとえばTwineはどうだろう。このサイトは今のところ、会員がこのサービスに保存したWebページにだけセマンティックなデータを加えている。

今年の初めには、Twineもやっと集客力がついたかと思われたが、その後だめになった。トラフィックが落ち込んだ(下図)のは、トラフィックを買うための広告をやめたためと、このサイトに対するGoogleのインデクシングの仕方が変わったためだ。結局のところTwineは、約25万人の熱心なファン層を超える、より大きな集客力を持ち得ていない。

でもCEOのNova Spivackと彼のTwineチームは、このところ別の開発に集中していて、本業のTwineサービスはほとんど無人運転のような状態だった。上のビデオでSpivackは、彼のチームがこれまで取り組んできたものを、ちらっと見せてくれる。T2というコードネームで呼ばれるそれは、Twine 1.0の独善的なやり方からの完全な決別だ。それは、Webの大きさに見合うほどの、十分なスケーラビリティを持ったセマンティック検索エンジンの作成に向かう大きな第一歩だ。これこそまさに、われわれがTechCrunch50で見たいと願っている*、ホームランねらいの大振りではないか。〔*: この記事はToyBotsという(それ自体はおもしろい)出場作品に対する、もっとでっかく考えろという苦言。〕

T2が順調に今年の終わりごろ立ち上がったら、それは、セマンティック検索というものの可能性をわれわれに教えてくれるデモになるだろう。T2は、主なカテゴリー…食品、健康、スポーツ、音楽、財務、テレビ、政治、ハイテク、映画、などなど…ごとに50から100の人気上位サイトのセマンティックなインデクスを持つだろう。これらのカテゴリーにおいてT2は、良質な人間ガイドのような検索を提供する。たとえば“野球”で検索すると、選手の一覧表だけでなく、それを守備位置、チーム名などで分類した表も作ってくれるはずだ。“タイ料理”とタイプしたら、各レシピーがタブで表示され、それらをサイト別、格付け別、食材別などでフィルタできるだろう。レストランもやはり複数がタブで表示され、都市別、営業時間帯別などでフィルタできるはず。

このようなガイド付き検索はBingにもあり、そのカテゴリーは最初の検索語で決まる。しかし、Twineのやり方は違う。

Twineがやったのは要するに、Webページを速く見つけること、そしてそのためにページのセマンティックなメタデータを作ることだ。Bingはそれを、Powersetの買収で手に入れた技術でもって、自然言語でやることがある。しかしそれは大量の計算処理を要するから、ほかの方法も使っている。Twineのやり方は、各ページのセマンティックタグの集合を作ることが中心だ。

そのための標準規格としてRDFやOWLなどがすでにあるが、めんどくさいからそういうタグを付けないサイトが多い。タグがあればTwineはそれを読めるが、なければページの内容から推測して適当なタグをページに割り当てる。デベロッパが自分の作るサイトにタグを容易に付けられるように、TwineはOntologies Editorのようなデベロッパツールも作っている。これにより、ドメインエキスパート的な人なら誰でも、いろんな概念とタグを定義し、それらにより、何かの話題(料理のレシピー、野球選手、車、などなど)に関するページの性格を付与できる。たとえば料理のレシピーという話題(トピック)には、食材、難度、作者、日付などの概念があるだろう。さらに、各概念に対して文字通り何百万もの属性値がありうる。一つのトピックを中心とするこういう情報の全体が、オントロジーだ。

考えられ得るどんなトピックにも、膨大な数のオントロジーがある。そのWebページに適用すべきオントロジーがTwineに分かれば、セマンティックタグも付けやすくなるし、ひいてはデータの取り出しもやりやすい。Twineは、そういうもののオープンな目録を作りたいと考えている。それは、オントロジーのためのSourceForgeのようなものになり、誰もが貢献寄与することによってだんだん良くなっていく。詳しくは、このビデオを見ていただきたい。

かなり抽象的な話になってしまったが、重要なWebページにどれもセマンティックタグがついているという世の中になったら、そのページが何であるかをコンピュータが知るのも容易になる。またそういうデータが必ずページに付随するようになれば、いわゆるセマンティック・ウェブがそのデータを計算処理の対象にできる。今後ますます多くの情報にタグが付くようになれば、今人びとが溺れかけている情報の洪水を適切にフィルタすることも可能になる。

Twineがそういうものを世に送り出す企業かどうか、それはまだ断定できないが、こういう大振りは絶対にやってみる価値がある。

[原文へ]

(翻訳:iwatani(a.k.a. hiwa))