ツイートの“ウソ”と“ホント”を見分けるアルゴリズムが86%の精度まで完成

次の記事

今年のギフトに“メーカー”たちの作品はいかが

wikipedian_protester (2)

コネチカット州Newtownの小学校銃撃事件は、ネット上の流言飛語というもう一つの惨事を生んだ。Ryan Lanzaと彼の友だちは、CNNが彼を犯人と誤報して以来、Facebook上の小うるさい連中から憎しみのメッセージを山のようにもらった(犯人はRyanの弟Adam Lanzaだ)。俳優のMorgan Freemanは、メディア上で暴言を吐いたという根も葉もない噂を、否定するのにたいへんな苦労をした(さらに、彼が死んだという噂が流れたこともある)。こういう、悪意に満ちた虚言と戦うためには、ソーシャルメディアのアップデートに信頼性のランキングが必要だ。最新の嘘発見アルゴリズムは、86%の精度*で真実のツイートを見つけることができるから、そのために使えるだろう〔*: 真と判定したツイートの86%が本当に真〕。

2010年にYahoo!が行った調査の、改訂報告書が来月号のInternet Researchに載る。それによると、ツイートの言葉や文章そのものが、真偽判定のための最良の手がかりだ。とりわけ、信用できるツイートは次のような性質を持っている([PDF])。

  1. 長いアップデート
  2. URLがある
  3. フォロワー数の多い人のツイートである
  4. 否定的(〜批判的)な語調
  5. ののしり言葉(“くそっ”など)がある
  6. ネガティブな顔文字(:-( など)が多い

とくに興味深いのは、噂かもしれないメッセージを取り上げて、それに対する疑念を表明しているツイートは、信頼度が高いことだ。調査チームのCarlos Castillo、Marcelo Mendoza、Barbara Pobleteらは、次のように説明している。

噂や流言を広めるツイートと、ニュースを広めるツイートには重要な違いがある。Twitterのコミュニティでは、前者は疑念をもって迎えられるからである。したがってTwitterのコミュニティは、情報のフィルタとしても機能している。ということは、次のようにも言えるかもしれない: 多くのツイートを集めて分析すれば、真実でない流言飛語を検出することが可能である、と。

Slateが取り上げている改訂調査報告書によれば、嘘のツイートと真実のツイートをランダムに入力された彼らのアルゴリズムは、真実のツイートを86%の精度で同定した。

アルゴリズムの精度が今後さらに上がれば、Tweetdeckや、あるいはTwitter自身が、ツイートを信頼度でランク付けできるようになるだろう。そして人びとを、悪質な流言飛語から保護できるだろう。Wikipediaにはかなり前から、出典の不明確な情報に付ける”[citation needed][要出典]”タグがある。われわれみんなのために、TwitterとFacebookも、これと同様のものを作って採用すべきだ。

[画像クレジット: XKCD]

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))