エンジニア(用語)
データマネジメント

データエンジニアの悪夢を解消するプラットフォームDatafoldがまもなくデビュー

次の記事

米国障害者法は施行30周年を迎えるが、テック業界のアクセシビリティ対応はまだ始まったばかり

簡単なことだと思われていた。データベースのスキーマに小さな問題が発生し、アプリが機能不全となり、遅延が重なり、ユーザーエクスペリエンスが低下する。そこへ常駐のデータエンジニアが現れて、スキーマを修正し、すべてが丸く収まる……。今までそうだったかもしれない。だが誰も気づかない間に、そのちょっとした修正が、企業幹部が使用するすべてのダッシュボードを完全に無能化してしまう。財務が落ちる。会社の運営がめちゃくちゃになる。そしてCEOは……。会社がネットにつながっているのかすらわからない。

データエンジニアにとって、これは単に気になる悪夢ではない。日々の現実なのだ。10年以上前から「データは新しい石油だ」との馬鹿げた掛け声に踊らされた私たちは、いまだに適切なシステムや管理術を持たないまま、データを断片的に扱い続けている。データレイク(湖)はデータの大海となり、データウェアハウスは……、なんと呼ばれるか知らないが、とにかく巨大なウェアハウスとなった(データウェア「ハウス」ならぬ「大邸宅」とでも言おうか)。データエンジニアは、繁雑な現実世界と厳格なコードの世界との架け橋としての役割を担っているが、それにはもっと「マシ」なツールが必要だ。

TechCrunchの非常勤データエンジニアである私は、個人的に、これまで同様の問題と何度も格闘してきた。それが私をDatafoldと引き合わせてくれた。Datafoldは、データの品質を管理するための、生まれたてのプラットフォームだ。

品質管理と継続的インテグレーションのためのツールを備え、コードが確実に期待どおりの動作をするようにしてくれるソフトウェアプラットフォームであるDatafoldは、すべてのデータソースを統合することで、ひとつのテーブルでスキーマが変更されても、別の場所の機能に悪影響が及ばないようにする。

創設者のGleb Mezhanskiy(グレブ・メザンスキー)氏は、この問題を身をもって体験していた。データサイエンティストおよびデータエンジニアとしてLyft(リフト)に務めていた間にその問題に詳しくなり、後に「データ専門家の生産性に特化した」プロダクトマネージャーに昇格した。Lyftが規模を拡大させるにつれて、Uber(ウーバー)など同じ市場の競合企業に対する競争力を維持するために、より優れたパイプラインとツールが必要になったからだ。

彼がLyftで学んだことが、今のDatafoldの中心的な取り組みに寄与している。メザンスキー氏は、このプラットフォームは、リンクされたすべてのデータソースと、その出口との間に存在していると説明している。そこには、問題解決のための2つの難題がある。ひとつは、「データは変化し、毎日新しいデータが入ってくる。その形も、業務上の理由であったり、データソースが壊れている可能性などの理由から、まったく違って見える」ということ。もうひとつは、「このデータを転送するために企業が使っている古いコードも、企業の新製品開発などのために機能のリファクタリングが加えられ、目まぐるしく変化する(大量のエラーが発生する恐れがある)」ことだ。

式で表すならば、「繁雑な現実+データエンジニアリングのカオス=データのエンドユーザーの不幸」となる。

Datafoldでは、データエンジニアがデータの抽出と変換の際に加えた変更と、意図しない変更とを比較することができる。たとえば、以前は整数を戻していた関数が、今は文字列を戻すようになった場合は、エンジニアがどこかでミスを犯した可能性がある。Datafoldなら、BIツールが使えなくなり、管理者たちから大量の苦情が送られてくるのを待たずして、問題発生の可能性を示し、何が起きているかを特定してくれる。

ここで重要なのは、たとえ数十億ものエントリーが含まれていたとしても、各データセットに起きた変化を集約し、データエンジニアが微妙な欠陥にも気づけるようにすることで得られる効率化だ。目標は、エラーの発生率が0.1パーセント程度であったとしても、その問題を特定し、要約をデータエンジニアに送り、対処できるようにすることだ。

Datafoldは、率直に言って、処理前のデータのごとく混乱しきった市場に参入することになる。同社は、データスタックの重要な中間層に位置している。データを保管するデータレイクやデータウェアハウスの領域でも、Looker(ロッカー)やTableau(タブロー)など多数がひしめくエンドユーザーのためのB1ツールの領域でもない。Datafoldは、データエンジニアによるデータフローの管理とモニターを可能にし、一貫性と品質を確保できるようにするツールに仲間入りを果たすわけだ。

このスタートアップは、少なくとも20名以上のデータ管理部門を持つ企業をターゲットにしている。そこは、データの品質が重要となるに十分な規模で、十分なリソースを扱うデータ管理部門のスイートスポットだ。

現在、Datafoldのメンバーは3人。今月末のY Combinator(ワイコンビネーター)のデモデーで公式にデビューを果たす予定だ。彼らの究極の夢は、もう二度とデータエンジニアがデータ品質の問題で深夜に呼び出され徹夜作業を強いられる事態をなくすことだ。あなたがもしそんな経験をしている一人だったなら、この製品の価値が痛いほどおわかりだろう。

画像クレジット:Wenjie Dong / Getty Images

[原文へ]

(翻訳:金井哲夫)