どうも、吉田真吾(@yoshidashingo)です。
AWSのus-east-1リージョン(Virginia)で大規模サービス停止があったようで、Virginiaにホストしているサービスなどで影響があったようです。
当初からVirginiaは新機能やサービスがいち早く提供されるリージョンとして知られており、またそういったExperimentalなリージョンであることからかいくらか他のリージョンより利用料が全体的に割安であることが知られています。よって、サービスの価格競争力などを確保するために、年に一度程度こういった障害が発生しうることを受容したうえで利用されているケースも多く見られます。だからといって障害が仕方ないという話では全くないのですが、トレードオフの考え方は大事です。
それよりどちらかというと、リージョン別にリソースが分割されていないもの(AWS自体のAPIのEndpointだったり、SNS、CloudWatchといったサービス、AWS Management Consoleなど)が軒並み影響を受け、ほぼ全てのリソースを東京リージョンを利用しているにもかかわらず障害の影響を受けてしまう状況というほうが深刻でしょう。
こういった点については、AWSから調査結果報告書を提示されると思いますので、それを受けてカスタマーとしてどう対応すべきか検討、またどこまでリスクを受容するか再度考えるといったアクションが必要になるでしょう。繰り返しますが、障害自体がダメということではありません。システムは有機的なものなので「必ず障害が起きます」。大事なのは対策やリスクとのバランス、アーキテクチャの最適化という部分です。
ということで障害に関しては詳細な情報が出てきてから再度まとめるとして、関連ブログのほうに行ってみましょう。
AWS公式
1. 【AWS発表】Route 53の改善 - ヘルスチェックの組み合わせ計算とレイテンシチェック
- Calculated(組み合わせ計算) Health Checksと、Latency測定ヘルスチェックという2つの機能がリリースされた。
- Calculated Health Checks
- 複数のエンドポイントのチェック結果を組み合わせて(たとえば全部OKか、一部OKか)OKかNGか判断することができる。
- Latency測定ヘルスチェック
- 接続確立までの時間や、データが応答され始めるまでの時間をトレースしてアクションを設定することができる。
2. 【AWS発表】Elastic Load Balancing のアップデート - 全ポートに対する負荷分散とアクセスログへのフィールドの追加
- ウェルノウンポートの全てが設定可能になり、ウェルノウンポートからエフェメラルポートまで設定対象の制限がなくなった。
- 今まで:25、80、443、465、687、1024-65535
- これから:1-65535
3. AWS ストレージアップデート - S3 の新しい低コストなストレージオプション & Glacier の値下げ
- S3が (東京リージョンで)4割以上安くなるStandard-IAというオプションが加わり、標準/Standard-IA/低冗長化ストレージの3種類から選べるようになった
- Standard-IAはストレージが安くなった分、可用性に関するサービスレベルが低く設定されたことと、取り出しに課金が追加された。つまり一度入れたらあまり取り出さない、ログ管理サーバーなどに使うとよい。
- Glacierもついでに安くなっている。
aws.typepad.com dev.classmethod.jp
4. AWS Device Farm ビルトイン App Explorer で Android アプリをひと通りテスト(スクリプト不要)
- テストスクリプトを書かずに AWS クラウドにある実デバイス上で Android アプリがどのように振る舞うかについて詳細なテストを実施できる App Explorer がビルトインされた。
5. AWS Black Belt Tech Webinar 「Amazon Redshift」資料公開
- 当日の資料と、Q&Aが公開されている。
6. セミナーレポート:AWS運用管理フォーカスセミナー ~AWSログ管理~
- 当日の資料が公開されている。
AWS関連
7. JAWS-UG アーキテクチャ専門支部 CDP議論会 #1 で Blue-Green Deploymentパターンについて話してきた
- 今回はEC2ベースなものについてのみだったが今後はマネージドサービス関連、あるいはデプロイ全般的に見てローリングデプロイやカナリーデプロイといったあたりの分類や特徴を整理して、CDPに反映していきたい。
8. 複数のクラウドサービス間でオブジェクトストレージの中身を同期する
- S3のイベント通知をSQS経由でワーカーに通知してGCPにコピー。
- 初回の同期も20TBあったがSQS経由で渡して同一の仕組みで実行できた。
- EC2のスケールを増やすことで、短い時間でレプリケーション対応した。
9. DynamoDB + Data Pipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた
- DynamoDBをステータス管理テーブルとして使い、Data Pipelineからdocker入りインスタンスを作成しrunさせ、もろもろやってS3に画像やHTMLを生成したら、ターミネートするからくり。
10. クラウドはセキュリティ的に危ないのか
- プライバシーマーク、ISMS、PCI DSS、SOC2 Type 1リポート、CSIRT構築を実現したシンジ君の報告資料
- 実際にそれぞれの基準にどう対応したか、記載されている
http://blog.animereview.jp/post/129276389786/keynoteblog.animereview.jp
その他
11. 『IoTをビジネスの力に』 IoTビジネスの実態とIoTセンサ
- IoTをはじめようとすると途端にカバー範囲が広くなり、垂直統合的に見ないといけなくなるけど、それでは加速しないのでいろんなプラットフォームを利用しようとする。そしてプラットフォームは雨後の筍状態。千里眼を磨こうという話。
www.slideshare.net
12. MESHでさくさくセンサーデバイス体験(1)
- MESHが今とても楽しい。
- GPIOタグやSDKは次回以降。
13. 私たちがセルフマネジメントについて誤解していたこと。仕事の自然なヒエラルキーを受け入れる
- フラットな組織が理想に掲げられることが多いが、実際にフラットな組織に移行して失敗した部分、そして現在についてBufferのCOOがインタビューに答えた。
- フラットにしたことで、自分が何で貢献すればよいか、捉えることが難しくなったようだが、再度ヒエラルキー構造にしたら、作られたヒエラルキーではなく、自分がなすべきことができるヒエラルキー構造を受け入れてみんながレベルの高い仕事ができるようになった、という話。
14. 1個の生産原価は何円か--和歌山のみかん畑にみる農業クラウドの実践
- 原価計算に限らず、データの活用で少ない樹木でよりたくさんの甘みがあるみかんができるように。
- 原価計算について言えば、農業だけに限らず、製造業などについても非常に注目が高まっている。
15. プロジェクトを成功させるために最初におこなっていること
- 5W1Hを決める
- 個々の責任範囲を明確にする
- 一つの場所に(情報を)まとめておく
16. 炎上の歴史とともに10周年、あの「ウェブ魚拓」創業者に会ってきた
- ウェブ魚拓の歴史についてのインタビュー。
- いわゆるフリーミアムで成功してるモデル。
http://hrnabi.com/2015/09/17/9372/hrnabi.com
17. Googleは10億個のファイル・20億行のコード・合計86TBでできている
- Googleのエンジニアリング・マネージャーであるレイチェル・ポートヴィンさんが、「The Motivation for a Monolithic Codebase」と題した講演で明かした。
18. [速報]リアルタイムなルールエンジン搭載の「IoT Cloud」をセールスフォース・ドットコムが発表。マイクロソフトがパートナーとして採用。Dreamforce 2015
- データを取得して独自のルールエンジンで分析して次のアクションにつなげるらしい。が、技術情報がないので、実際どういうものかは不明。