Google、先週のGoogle Docsダウンを説明

次の記事

Tumblr、1年で記事数10億本から100億本へ

先週Google Docsが長時間ダウンし、またまた重要書類をクラウドに置くことに関する信頼性問題が持ち上がった。個人的には、Googleの冗長性のあるサーバー基盤の方が、自分のハードディスクよりも信用できる。しかし、企業ユーザーにとっては、クラウド停止の問題は、サードパーティーのバックアップサービスを使っていない限り、社内のIT要員ではどうにもならないことにある。

今日(米国時間9/11)Googleが、同社のDocsサーヒスに起きたこと、今後どうやって問題を正していくかについて詳しい解説を発表した。

Googleエンタープライズ・ブログの記事によると、今回のダウンはドキュメントリスト内のリアルタイム協同作業機能を改善するためのデザイン変更が原因であるとGoogleは言っている。この変更によって、負荷の大きい時にのみ起きるメモリー管理のバグが露呈した。

技術担当ディレクターのAlan Warrenが書いている:

Google Doc文書が変更されると必ず、更新が必要なサーバーを検索する。メモリー管理のバグによって、検索用マシンが正しくメモリーを開放しなかった結果、最終的にメモリーが枯渇して再起動した。再起動中、その負荷を他の検索マシンが引き受けた ― さらにメモリー枯渇が早まった。以上の結果、ドキュメントリスト、ドキュメント、描画データ、スクリプトをアクセスするリクエストの大部分が正しく処理されず、水曜日に発生したダウンを引き起こした。

総ダウン時間は約30分で、うち24分が変更のロールバックに費され、5分がサービスの通常機能復旧にあてられた。

Warrenによると、この問題の解析によってGoogleは、今後の問題発生の可能性を減少させ、再度同様の問題が起きた場合にも、解決時間を短縮し、一つの問題による影響範囲を狭めることが可能になる。

改めて言うが、Google Docsの一般的ユーザーの大部分は、恐らくこのダウンに気付かなかっただろう。影響を受けたのは、今回のようなクラウドのダウンを最も心配するGoogle Appsのビジネスユーザーたちだ。クラウドへの移行には欠点もある、しかし忘れてはならないのは、完璧なシステムはないことであり、それは以前会社のIT担当者が運用していたシステムも同じだ。

[原文へ]

(翻訳:Nob Takahashi)