アップタイム計算ツール
SLAで許容されるダウンタイムを計算するか、特定のダウンタイム予算に必要なアップタイム率を確認できます。
アップタイムとは?
アップタイムとは、サービスが稼働しアクセス可能な時間の割合です。サービスレベル契約(SLA)で信頼性を定義するための主要な指標です。
「99.9%のアップタイム」とは、任意の期間で0.1%以上の停止がないことを意味します。30日の月では、約43分の許容ダウンタイムに相当します。
アップタイムは外部から測定されます。内部インフラではなく、ユーザーの視点からです。
SLAレベルの理解
可用性の「ナイン」が1つ増えるごとに、許容ダウンタイムは10分の1に減少し、インフラの複雑さとコストが大幅に増加します。
| SLA | 1日 | 1週間 | 1ヶ月 | 1年 |
|---|---|---|---|---|
| 99% | 14m 24s | 1h 40m 48s | 7h 18m 18s | 3d 15h 39m 29s |
| 99.5% | 7m 12s | 50m 24s | 3h 39m 8s | 1d 19h 49m 45s |
| 99.9% | 1m 26s | 10m 5s | 43m 50s | 8h 45m 57s |
| 99.95% | 43s | 5m 2s | 21m 55s | 4h 22m 58s |
| 99.99% | 8.6s | 1m 0s | 4m 23s | 52m 36s |
| 99.999% | 0.9s | 6s | 26s | 5m 15s |
アップタイムの改善方法
外部監視を使用する
内部ヘルスチェックではネットワークやDNSの障害を検出できません。外部モニターはインフラの外部から確認します。
冗長性を実装する
ロードバランサーの背後で少なくとも2つのインスタンスを実行してください。自動フェイルオーバー付きのマネージドデータベースを使用してください。
デプロイを自動化する
手動デプロイはエラーが起きやすくダウンタイムの原因になります。Blue-GreenやCanaryデプロイを使用してください。
アラートとオンコールを設定する
迅速な検出がダウンタイムを短縮します。エスカレーションポリシー付きのアラートを設定してください。
ポストモーテムを実施する
すべてのインシデントは学習の機会です。何が起きたか、根本原因、再発防止策を文書化してください。
よくある質問
アップタイム率はどのように計算されますか?
アップタイム率 = (合計時間 - ダウンタイム) / 合計時間 x 100。30日の月は43,200分です。43分のダウンタイムの場合: (43,200 - 43) / 43,200 x 100 = 99.9%。
99.9%と99.99%のアップタイムの違いは?
99.9%のアップタイムは月約43分のダウンタイムを許容し、99.99%は約4分のみです。
計画メンテナンスはアップタイムに影響しますか?
SLAの定義によります。計画的なメンテナンスウィンドウを除外するSLAもあれば、すべてのダウンタイムをカウントするSLAもあります。
顧客にどのSLAを提供すべきですか?
まず3-6ヶ月の実際のアップタイムを測定してください。ほとんどの本番SaaSサービスは99.9%(スリーナイン)にコミットしています。
実際のアップタイムをどう監視しますか?
インフラの外部からエンドポイントを定期的(10-60秒間隔)にチェックする外部監視サービスを使用してください。