Googleが多様なツールを用意してクラウド上のデータ操作/データ処理を助ける

次の記事

新しいGoogle App Engineは、お好みの言語で開発が可能

今日(米国時間3/9)のCloud NextカンファレンスのステージでGoogleは、データの準備や統合化を助ける一連のツールを発表した。いずれも、Google Cloudの企業利用をより強力かつ敏速にするためのアップデートだ。

まず紹介されたのがGoogle Cloud Dataprepの非公開ベータ。その名のとおり、データ(data)を視覚化のために準備(preparation)する。このツールには、異状検出機能があり、機械学習を利用して通常と異なる形のデータをユーザーに告げてデータのクォリティーを改善する。

誰にも使いやすいツールにするために、すっきりとしたインタフェイスに留意している。多くのコントロールが、ドラッグ&ドロップでできる。DataprepはGCP(Google Cloud Platform)への統合化に向けて最適化されており、Google Cloud Dataflow中のパイプラインを作ることによって、容易にBigQueryへデータをフィードできるようにしている。

今日は、BigQueryも強調された。新たにBigQuery Data Transfer Serviceというサービスを立ち上げて、複数のデータソースからのデータのマージを単純化する。既存の商用データセット、Xignite, HouseCanary, Remind, AccuWeather, Dow Jonesなどを最初からサポートしている。

ユーザーがTableauのような視覚化サービスを利用するときは、データをシームレスに準備して分析結果を表示できる。BigQueryは大規模プロジェクトのためにCloud Bigtableを今後サポートするから、データをいちいちコピーして移送する手間もなくなる。

Googleのクラウドプラットホーム担当VC Brian Stevensはこう語る: “マーケティングのチームがマーケティングに関するデータ分析をGCP上できわめて容易にできるようにした”。

Cloud Dataflowには、PythonによるSDKが広く提供される。これまでのJavaを超えて、コミュニティがさらに拡大するだろう。

ワークフローツールCloud Datalabも、今度から一般提供される。デベロッパーは、ノートブック環境Jupyterと標準のSQLを使って、データ分析ができる。TensorFlowとScikit-learnもサポートされる。バッチとストリーム処理はCloud DataflowやApache Spark + Cloud Dataprocでできる。またCloud DataflowのためのStackdriver Monitoringはベータへ移行し、GCPやAWSがホストするアプリケーションのモニタリングや診断を行う。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))