Netbase
Hakia

ウェブから情報を読み取るパワフルなセマンティック分析エンジンを提供するNetBase

次の記事

LogLogic、Exaprotectを買収してITセキュリティ管理サービスを強化

GoogleやYahooなど一般的な検索エンジンでは、統計データに基づいてウェブの解析を行う。用いるデータはリンク、キーワード、その他ページ上に現れるもので、これらデータに基づいて検査時の表示順位を決定する。一方、セマンティック検索エンジンにおいてはウェブやドキュメントに含まれる単語を解釈して、その意味に基づいて指定された検索用語に最も関連性の高い結果を戻そうと試みる。マイクロソフトは$100M(1億ドル)で買収して、セマンティック検索に力を入れてはみたが、現在のところWikipediaの検索しか行えない。Hakia、Textwiseなど、多くのスタートアップがセマンティック検索の分野で活動を行っている。そしてこのたびNetBaseが新たに参入してきた。同社は既存のアプローチ手法とは異なる方法で、ウェブ全体についてセマンティック検索を実現するのだという。

NetBaseは、これまでにも活動を行ってきた企業だ。これまではAccelovationという名前だった。過去4年間で2度のベンチャー投資ラウンドによって$9M(900万ドル)を調達しており従業員数は30名。顧客にはP&G、Caterpillar、3M、BP、Kraft、BASF、およびGoodyearの名が上がっている。Accelovationはこのたび改名を行い、同社のセマンティック検索技術のコア部分をプラットフォームとして提供して、顧客独自のサービス構築に利用してもらおうと考えている。既に科学系出版社のElsevierがIllumin8エンジンにNetBaseを採用しており、科学記事、特許、およびウェブサイトの検索に役立てている。

NetBaseは文章を統計的に処理して単語間の関連性を決定するという、洗練された言語学的アプローチを採用している。日常言語においてはこのアプローチはうまく機能しているようで、テキスト中から原因と結果を抜き出すことができる。たとえばNetBaseは「The calcium, potassium and magnesium found in yogurt can help reduce your risk for hypertension often resulting from stress, obesity, and other factors」という文章から「stress」や「obesity」が高血圧(hypertension)の原因となり、「calcium」、「potassium」、「magnesium」、および「yogurt」が高血圧を抑制することを把握する。

NetBaseでは既に80億のウェブページをインデックス化しており、月間1兆の文章のセマンティック分析を行っている。文書中に原因と結果ないしその他の関係性を見いだせば、関連検索が行われた際にその内容を優先的に検索結果として表示するようにする。つまり健康についての検索を行えば、その症状、原因、クスリ、治療方法などを表示してくれるようになるのだ。またこうしてインデックス化された情報はQ&A形式の検索にも対応できるようになっている。たとえば「セマンティック検索技術を開発している企業はどこ?」という質問を投げれば、セマンティック検索を行っている企業のリストを、短い説明文付きで一覧してくれる。

当方では検索システムのデモを利用して、ある製品の良い点や悪い点を検索してみたり、特定マーケットにおける企業を検索してみたり、あるいは医療関係での原因と結果を検索してみた。結果については満足のいくものだった。全体的にみて最低でも70%程度は関連性のある検索結果が表示された。Googleで検索した際には無関係な結果がはるかに多く表示されていた。但し、検索に時間がかかるのは気になった。NetBaseは検索結果を戻すのに5秒以上かかっていた。これについては製品化される際には改善されているとの話ではあった。

NetBaseはコンセプトの正しさを示すために、PubMedのコンテンツを使って健康分野の検索エンジンを構築する予定はあるとのことだが、検索エンジンを提供することは考えていない。自社提供するのではなく、所有するデータベースコンテンツとウェブ上の情報を組み合わせてバーティカルな検索ツールを作成しようと考える大手情報提供者ないし企業にエンジン部分を提供することを狙っている。完全に企業間同士の契約を意図したもので、ライセンス価格は最低でも約100,000ドルからとなっている。

netbase-sentence

原文へ

(翻訳:Maeda, H)