AWS S3 US-EAST-1がダウン、アメリカは大混乱―Amazonは原因を突き止めたらしい

次の記事

iPhoneプレミアムモデルは曲面OLEDを採用(全モデルでポートはUSB-Cに)

AmazonのAWS S3クラウドストレージに広汎な障害が発生している。S3を利用している多くのウェブサイト、アプリ、デバイスが一部あるいは完全に作動しなくなっている。AWSは多くのサイトの実行イメージあるいはサイトそのものをホストしている。アプリのバックエンドとして利用しているサービスにはNestも含まれる。

「US-EAST-1のS3に高頻度でエラーが発生する」という障害が発生していることがAmazon AWSサービスのヘルス・ダッシュボードで確認されている。 当初、Amazonでは「プログラムを修正中」と発表したのみで原因など詳しい状況は不明だった。

影響を受けているサイト、サービスにはQ&AのQuora、ニュースレター配信サービスのSailthru、ニュースサイトのBusiness Insider、Giphy、S3が画像をホスティングしている各種yメディア、Slackにおけるファイル共有など多数だ。スマートサーモスタットなどホームIoTのパイオニアであるNestにも障害が発生しており、デバイスのコントロールが不可能になっている。

SimilarTechのトラッキング・データによれば、Amazon S3は14万8213のウェブサイトが利用しており、 12万1761のドメインを運用している。コンテンツのホスティング・サービスとしての利用はアメリカに集中している。ただし利用の絶対量は上位100万サイトの0.8%に過ぎず、たとえばCloudFlareの世界のトップ100万サイトについて6.2%という数字に比べてかなり小さい。それでもAWSのダウンは大きな影響を与えている。

驚いたことに、AWSサービスの健康状態を示すダッシュボードのグラフィックス自体がS3のストレージを利用しており、したがってこの大混乱にもかかわらず「平常通り」の緑のランプが点灯しているという。

われは状況を注視しており、さらに情報が得られしだいフォローする。

アップデート: (11:40 AM PT): AWSはヘルス・ダッシュボードについては問題を修復した。ダッシュボードは 作動の低下やダウンを正しく表示している。Amazonは復旧の努力中。

アップデート (11:57 AM PT): AWSはS3がダウンした「根本的な原因を発見」したもよう。「修正に全力を挙げている」という。ただしそれ以上の詳細は発表されていない。

アップデート (12:15 PM PT): ネットワーク監視ソフトのプロバイダー、ThousandEyesの報告によれば、S3のダウンに伴うパケットロスはバージニア州アッシュバーン(Ashburn, VA)地区に集中しているという。アッシュバーンにはAmazon AWSのデータセンターがある。このデータセンターの正確な位置が判明したのは建設中に起きた火災のため

アップデート: (12:54 PM PT): AWSでは「S3オブジェクトの修復を進めている」とのこと。サイトが使っていたアバター、画像などのビジュアル・オブジェクトが復旧しつつあるようだ。Amazonはあと1時間程度のうちにさらにエラー率の低下を図るとしている。

アップデート: (1:20 PM PT): AWSのトップページによれば、現在S3は既存オブジェクトの利用に関しては完全に回復した。新規オブジェクトをS3に追加できるようさらに修復を続けているという。

取材を続行している…

〔日本版〕日本ではSlackのファイル共有を含めて目立った影響は出ていない。US-EAST-1を利用していない場合は正常に作動するもよう。
なおQuoraは”504. Gateway Timeout.”のエラーとなる。Business Insider(英語版)はテキストそのものは表示されるがウェブページとして正しく表示されない。

アップデート: Quora、Business Insider(英語版)とも復旧。

[原文へ]

(翻訳:滑川海彦@Facebook Google+