
今朝私が記事を書いた、NetBase SolutionsのhealthBaseは、セマンティック検索を行う検索エンジンで、WebMD、Wikipedia、PubMedなど、たくさんの権威ある保健医療関連サイトから集めた情報を、単純な語彙インデクスではなく、セマンティクス(言葉の意味)に基づいて選別してくれる。でもそれは、セマンティック(semantic)エンジンなのか、それとも反ユダヤ主義的な(anti-semitic)検索エンジンなのか? 〔訳注: 筆者はsemanticとsemiticで語呂合わせをやってるつもり。〕
何人かの読者がこのサイトを試してみて、このhealthBaseのセマンティック検索エンジンの深刻な欠点に気づいた(コメントを見てみて)。そのいちばんまずい例の一つは、“AIDS”で検索してみると現れる。この病気の病因の中に”ユダヤ人(Jew)”があるのだ。ほんまに。
それだけではない。Jewをクリックすると病因Jewの”対策”、”薬品と投薬方針”、”合併症”などなどのページになり、Jewという病因を解消するための対策として“アルコール”と“粗塩”と”ドクターペッパー(Dr. Pepper)などが挙げられている。どうして? この話を信じられない人のために、スクリーンショットを下に載せた。もちろんhealthBaseが反ユダヤ主義だとは思わないが、言葉のニュアンスを汲み取るはずの技術がこれじゃあ、まだ実用レベルとは言えないのでは? 言うまでもなく、企業や医療関係者が実際に使う前に直さないとだめですよ。
NetBaseに問い合わせたら、こんな返事が:
これは同音異義語の不運な例です。同じ言葉が、複数の意味を持っているのです。今回の例では、システムが病気の”AIDS”と介護や援助を意味する”aids”(動詞三人称単数)を区別できるように構成されていませんでした。検索結果の”Jew”をクリックすると、7世紀の歴史に関するWikipediaからの引用が表示されます: “Hispano-Visigothic king Egica accuses the Jews of aiding the Muslims, and sentences all Jews to slavery.”〔イスパノ西ゴートの王エジカはユダヤ人たちがイスラム教徒を助けている(aiding)ことを責め、すべてのユダヤ人を奴隷刑に処している〕。Wikipediaには、すぐれた保健医療情報がたくさんありますが、このように医療とは関係のない情報もあります。それらを選り分けるのは、容易ではありません。
でも、この程度の意味の違いは、本番立ち上げの前に対応が図られていて当然だと私は思う。これは健康関連の質問に健康と関係のない答えが返ってきた例だが、それにしてもひどすぎる。pros of AIDS(AIDSの利点)で検索すると、”Spanish Civil War”(スペイン内戦)が出てくるのは、まるで漫画だ。causes of hemorrhoids(痔の原因)では”Bronco”が出る(その意味を私は知りたくないっ!)。〔訳注: たぶん、男性同士の同性愛行為に関連しているとされている語としてのbroncoでしょう。それとも、イギリスのトイレットペーパーのブランドBroncoは、(サンドペーパーみたいなので)痔になりやすい、という意味か? この記事の筆者のRao氏は、うら若き女性です。〕
HealthBaseはNetBaseのセマンティック技術の実用見本だということになっている。しかしまだまだ、言葉の意味を正しく理解しているとは思われない。しかも同社のテクノロジが商品として売られ、ほかの企業の検索エンジンに利用されたりすることがありえるのなら、その前に絶対に改良が必要だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))
