Google、RDFaをサポート―構造化されたセマンティック・ウェブへ一歩を進める

次の記事

男の子全員集合!, Break.comがきみたちのアマチュアビデオ作品を買うってよ

今日(米国時間5/12)、Googleは検索においてRDFaを部分的にサポートすることを発表した。RDFaはデベロッパーがメタデータを付与してウェブページを構造化することができるフレームワークだ。多くの一般ユーザーはそういわれてもあまりピンとこないかもしれない。しかし、このニュースは検索エンジンのリーダーであるGoogleがウェブページを構造化するメタデータの利用に踏み切った第一歩として非常に重要なものだ。Googleは長らくメタデータの利用を避け続けてきた。

ここでRDFa規格の詳細に立ち入ることは避けるが(詳しいことが知りたければここここを参照)、セマンティックなメタデータを利用するメリットは簡単な例で理解できる。もし私が名前を挙げず、単に“The President”と書いたとすると、Googleは私がオバマ大統領のことを言っていると認識できないだろう。他のアメリカ大統領のことを言っているのかもしれないし、どこかの会社の社長のことかもしれない。もしRDFaを利用していれば、私は“The President”というフレーズに“Barack Obama”とタグづけすることができる。このタグは検索エンジンのクローラー・ロボットには見える(それによって検索精度が向上する)が、人間が読むブラウザ画面には表示されない。つまりこのメタデータによって、人間が読む部分に不必要な情報を表示せず、検索エンジンにコンテンツの内容を伝えることができるようになる。

検索エンジンはRDFaタグによってウェブページの構造を解析し、検索結果に反映させることもできる(Googleはこれをrich snippets〔リッチ抄録〕と呼んでいる)。またブラウザは必要に応じてメタデータから関連する地図などの外部情報を読みこんで表示させることもできる。



RDFa規格を最初に提唱したMark Birbeckは来る6月に予定されているセマンティック・ウェブのカンファレンスで講演を行う予定だが、今回のGoogleの決定について「大きな一歩だ」と評価した。Birbeckよると、Googleはウェブページのコンテンツからアルゴリズムによって正しい文脈を引き出そうとしてきた。これは多くの場合成功しているが、われわれの記事でも指摘しているとおり、いつもうまくいくとは限らない。アルゴリズムでは正しく解析できない(少なくとも現状では)ケースが存在する。

GoogleがRDFaの利用を始めたといっても、一般ユーザーがその恩恵を受けるのには少し時間があかかるだろう。まずGoogleのRDFa利用は当初きわめて限定的なものだし、その利用が将来どのくらい拡大されるのかもはっきりしない。しかしRDFaはGoogleが採用する前からかなり普及し始めていた。Yahooや英国政府を始めとする多くのサイトがRDFaを利用している。もちろん検索市場におけるGoogleの圧倒的優位を考えれば、GoogleがRDFaにお墨付きを与えた意義は大きい。おそらくGoogleにならってRDFaを利用するサイトが多数現れることだろう( たとえばDrupal 7はデフォールトで採用する計画)。

とはいえ、Googleの利用方法に対しては批判の声もある。Googleは、すでに多くのウェブページが構造化のために利用している多くのタグを無視した不完全なバージョンのRDFaを利用しているというのだ。BirbeckはGoogleのRDFa利用方法に改善の余地があること認めた上で、「〔GoogleのRDFa利用が〕適切かどうかという疑問が出てくるのも、そもそもGoogleが利用に踏み切ったからだ。…この影響は大きい」と述べた。



〔左がブラウザが認識するページ。右が人間の認識するページ。ブラウザにもっと情報を与えて人間の認識に近づける方法を考えなくてはいけない。〕

[原文へ]

(翻訳:Namekawa, U)