新たな検索エンジンサービスで成功を収めるのは難しい。今回(米国時間11/14)のElevator Pitchに登場したのはTruevert。Herbert Roitblatによるもので「普通でいいのですか?」という問いかけを通じて利用者にアピールを試みている。Google、Yahoo、およびマイクロソフトは普通の検索結果を戻す。Truevertは「環境」を意識した特別な検索結果を戻すようになっている。“SUV”を検索するとHybrid.SUV.comがトップに表示される。A search for “building materials”(建築用材)を検索してもやはり環境を意識した用材のページがトップに表示される。

但し、Truevertは環境意識をウリとしているわけではない。Yahoo BOSSを利用したマッシュアップであることがウリだ。Truevertは実はOrcaTecで開発されたセマンティック技術のデモンストレーションのために立ち上げられたもの。OrcaTecはRoitblatとBrian Golbèreが共同で設立した企業だ。TruevertはYahoo BOSSで検索結果を取得し、環境関連の結果を抜き出すのに独自のテキスト解析ソフトウェアを利用している。OrcaTecの解析エンジンはファション用、スタートアップ企業用等、どのような特定分野向け検索エンジンにも簡単に応用できる。
Roitblatはメールで仕組みを説明してくれた。
われわれは人々が言葉を学ぶ方法を模倣してみました。人間が新たな単語を学ぶとき、文ないしパラグラフの中の関係で意味を学習します。たとえ辞書で意味を調べるときでも、他の語との文脈関係が大事なのです。また、文を理解するときにも文の中で使われる語が他の語の意味を明確にします。たとえば「the tree surgeon examined the young man’s palm」という文を考えてみてください。文章の他の語の働きによって「palm」の意味を取り違えることもなくなります。
私たちのシステムでも、意味を把握するのに文脈判断を利用しています。システムには環境問題に関する文章を処理させました。文章は段落に分解され、そして特許申請中のモデリングソフトウェアによって段落内の単語相互の関係が分析されます。そして段落内において他の単語の意味は、段落内で利用される他の単語との関連によって把握されるのです。
このような処理を経て、利用者が検索語を入力して検索ボタンを押すと、検索語はモデリングされた分析システムに渡され、強度の関連を持つ他の単語群が生成されます。しかるのちにこれらの単語はBOSSに引き渡されます。そしてBOSSから戻ってくる結果を、拡張・重み付けの処理を施した検索語に応じてランク付けして表示します。このような経過を辿って、検索結果は望む文脈(Truevertの場合は環境問題関連という文脈)にて表示されるのです。
Truevertで用いられるセマンティック技術とHakiaやPowersetで用いられるものとの最大の違いは、Truevertでは膨大で扱いも難しいオントロジーや分類、またシソーラスさえも必要ないという点だ。Truevertのシステムではテキスト自体および対象語の周辺に現れる語から、それぞれの語の意味を把握する。RoitblatはTruevertのアプローチを他のセマンティック検索技術で用いるものとは区別しており、他システムの限界を以下のように説明している。
他のセマンティック検索エンジンは、ここ20年間ほどに行われてきたオントロジー工学に基づくものです。オントロジーでは、分析者が重要であると考える語ないし関係のみが対象になります。通常ひとつの言葉に限定されており、新たな言語に対応させるためには多くの作業を必要とします。一方Truevertシステムに環境問題について学習させるには1時間しかかかりませんでした。また本技術は、読み込むページ自体から語の意味を理解するので、どのような言語においても利用可能です。
対象とする分野は好みに応じた範囲に設定可能です。たとえば「消費財」、「旅」など広範囲なものから、特定の個人の興味に応じた狭い範囲にまで対応することができます。この範囲設定も自動化されているので、基本的に制限無く、いくつでも素早く作成することができます。一般の検索エンジンで「関連サーチ」として提示されるのと同様の形式で、分野毎の検索結果を提示することも可能なのです。
他社がセマンティック検索として公開しているものは、セマンティックウェブの技術に基づくものです。そのような方式では文書を処理するたびに、その文書がどのカテゴリに属するのかを決定するために人手がかかります(コンピュータで処理するにしても、結局「判断」が必要になります)。しかしこの方法は結局検索エンジンにてメタタグを利用するのと同じです。この方式では勝手なタグをつけて、不適切なカテゴリに登録することで何かしらの利益を得るという行為を簡単に行うことができました。RDFフレームワークにおいても、このようなごまかしに対応する方法があるようには思えません。Truevertではこのような行為を防ぐことができます。これは人為的な意味付けを信じるのではなく、実際のコンテンツによって処理を行っているからです。作者の誠実さや信頼度によって判断をするのではないのです。
また、従来のカテゴリ分類はセマンティックウェブにおけるタグとうまくマッチしない場合もあります。新たな言葉が作られたり(「podcast」などという言葉は昔の人にはちんぷんかんぷんです)、あるいは新たな意味を付け加えたりします(ハンプティ・ダンプティシンドロームと呼ぶことができます。たとえば「twitter」などの語が該当します)。つまりボキャブラリは永久に成長し続け、意味分類も変化し続けることになるのです。したがってオントロジ工学は常に後手を引くことになります。
さらにセマンティックウェブのアプローチは、語の意味が時間の経過によっても、使う人によっても変化しないことを前提にしてカテゴリ分類を行うことによって成立しています。しかし現在の状況や必要性に応じてカテゴリ分類などは変化するものなのです。どの語ないし物体も、無数のカテゴリに分類され得るものなのです。たとえばバスケットボールはどのカテゴリに含めるべきでしょうか。丸いもの、弾むもの、茶色いもの、等々に含めることができます。このリストに終わりはあるでしょうか。誰もがもうこれ以上は存在しないと考えるまでカテゴリをリストアップできるでしょうか。私の兄が嫌うもの、というカテゴリでさえあり得ます。バラク・オバマが好きなもの、というカテゴリはどうでしょう。浮かぶもの、というカテゴリも考えられるでしょう。この場合たとえば沈みつつある船にいる場合を考えてみましょう。そのような場合にはまさに「浮かぶもの」というのが非常に重要なカテゴリとして意識に上ることになります。
ところで。問題はTruevertがより良い検索結果をもたらしてくれているかどうかだと思う。ぜひ使ってみて、この記事のコメント欄にてRoitblatに報告してあげて欲しい。
[原文へ]
(翻訳:Maeda, H)




