大量の一般公開データセットを検索できるGoogle Dataset Searchがベータから公式リリースへ

次の記事

Q&AプラットホームのQuoraをレイオフが襲う

Google(グーグル)は米国時間1月23日、Dataset Searchのベータ終了を発表した。この一般に公開されている2500万近いデータの集合を検索できるサービスは、2018年の9月にローンチした

研究者たちが利用できるこれらのデータセットは、オランダに2010年から2018年まで猫が何匹いたかといった小さなものから、自分たちの仮説をチェックしたり機械学習のモデルを訓練およびテストするための、注釈入りのオーディオと画像の大型集合までいろいろだ。このツールは現在、約600万のテーブルを索引データ化している。

今回のリリースからDataset Searchにはモバイルバージョンが加わり、新機能も追加された。まず第一に、テーブル、画像、テキストなどデータのタイプを指定するフィルターだ。もちろんこれで求めるデータが見つけやすくなる。また、データセットに関する情報が増え、その出どころも明記された。

検索インデックスの中のデータの多くは、政府の省庁が出どころだ。現在インデックス中のデータとしては、米国政府のデータセットが約2百万件ある。ただしGoogleのKaggleも頻繁に姿を見せるし、そのほかの公共および民間の団体もデータを提供している。

Googleによれば、面白いデータセットを持ってる人は誰でも、それを提供して索引データ化してもらえる。そのプロセスには、データを詳しく説明できるschema.orgの標準マークアップが使われる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa