Uptime-Rechner
Berechnen Sie, wie viel Ausfallzeit Ihr SLA erlaubt, oder finden Sie heraus, welchen Verfuegbarkeitsprozentsatz Sie fuer ein bestimmtes Ausfallzeitbudget benoetigen.
Was ist Uptime?
Uptime ist der Prozentsatz der Zeit, in der ein Dienst betriebsbereit und erreichbar ist. Es ist die primaere Kennzahl in Service Level Agreements (SLAs), um Zuverlaessigkeitsverpflichtungen zwischen Dienstanbietern und ihren Kunden zu definieren.
Wenn jemand sagt, sein Dienst habe "99,9% Uptime," bedeutet das, dass der Dienst in einem beliebigen Zeitraum voraussichtlich nicht laenger als 0,1% dieser Zeit nicht verfuegbar ist. Bei einem 30-Tage-Monat entspricht das etwa 43 Minuten erlaubter Ausfallzeit.
Uptime wird extern gemessen, aus der Perspektive Ihrer Benutzer, nicht Ihrer internen Infrastruktur. Ein Server, der glaubt zu laufen, aber keine Anfragen bedienen kann, ist effektiv ausgefallen.
SLA-Stufen verstehen
Jede zusaetzliche "Neun" der Verfuegbarkeit reduziert Ihre erlaubte Ausfallzeit um das 10-fache und erfordert in der Regel einen erheblichen Anstieg der Infrastrukturkomplexitaet und -kosten.
| SLA | Pro Tag | Pro Woche | Pro Monat | Pro Jahr |
|---|---|---|---|---|
| 99% | 14m 24s | 1h 40m 48s | 7h 18m 18s | 3d 15h 39m 29s |
| 99.5% | 7m 12s | 50m 24s | 3h 39m 8s | 1d 19h 49m 45s |
| 99.9% | 1m 26s | 10m 5s | 43m 50s | 8h 45m 57s |
| 99.95% | 43s | 5m 2s | 21m 55s | 4h 22m 58s |
| 99.99% | 8.6s | 1m 0s | 4m 23s | 52m 36s |
| 99.999% | 0.9s | 6s | 26s | 5m 15s |
Wie man die Verfuegbarkeit verbessert
Externes Monitoring nutzen
Interne Health Checks koennen Netzwerkausfaelle oder DNS-Probleme nicht erkennen. Externe Monitore pruefen von ausserhalb Ihrer Infrastruktur, genau wie Ihre Benutzer auf Ihren Dienst zugreifen. Pruefen Sie alle 10-30 Sekunden aus mehreren Regionen.
Redundanz implementieren
Betreiben Sie mindestens zwei Instanzen hinter einem Load Balancer. Verwenden Sie verwaltete Datenbanken mit automatischem Failover. Jeder einzelne Ausfallpunkt, den Sie beseitigen, bringt Sie naeher an die naechste Neun.
Deployments automatisieren
Manuelle Deployments sind fehleranfaellig und verursachen Ausfallzeiten. Verwenden Sie Blue-Green- oder Canary-Deployments, um Aenderungen ohne Dienstunterbrechung auszurollen. Automatisieren Sie Rollbacks fuer fehlgeschlagene Deployments.
Alerting und Bereitschaft einrichten
Schnelle Erkennung reduziert die Ausfallzeit. Konfigurieren Sie Alerts mit Eskalationsrichtlinien, damit der richtige Ingenieur sofort benachrichtigt wird, mit automatischer Eskalation, wenn er nicht reagiert.
Postmortems durchfuehren
Jeder Vorfall ist eine Lernmoeglichkeit. Dokumentieren Sie, was passiert ist, die Ursache und Massnahmen zur Vermeidung von Wiederholungen. Der beste Weg, die Verfuegbarkeit zu verbessern, ist, Fehler nicht zu wiederholen.
Haeufig gestellte Fragen
Wie wird der Verfuegbarkeitsprozentsatz berechnet?
Verfuegbarkeitsprozentsatz = (Gesamtzeit - Ausfallzeit) / Gesamtzeit x 100. Zum Beispiel hat ein 30-Tage-Monat 43.200 Minuten. Wenn Ihr Dienst 43 Minuten ausgefallen war, Verfuegbarkeit = (43.200 - 43) / 43.200 x 100 = 99,9%.
Was ist der Unterschied zwischen 99,9% und 99,99% Verfuegbarkeit?
99,9% Verfuegbarkeit erlaubt etwa 43 Minuten Ausfallzeit pro Monat, waehrend 99,99% nur etwa 4 Minuten erlaubt. Die zusaetzliche Neun reduziert Ihr Ausfallzeitbudget um das 10-fache, was typischerweise deutlich mehr Infrastrukturinvestitionen erfordert.
Zaehlt geplante Wartung gegen die Verfuegbarkeit?
Das haengt von der Definition Ihres SLA ab. Einige SLAs schliessen geplante Wartungsfenster aus den Verfuegbarkeitsberechnungen aus, waehrend andere alle Ausfallzeiten unabhaengig von der Ursache zaehlen. Pruefen Sie immer die Bedingungen Ihres SLA fuer die spezifische Definition.
Welches SLA sollte ich meinen Kunden anbieten?
Beginnen Sie damit, Ihre tatsaechliche Verfuegbarkeit ueber 3-6 Monate zu messen. Ihr SLA sollte auf realen Daten basierend erreichbar sein, nicht auf Wunschdenken. Die meisten produktiven SaaS-Dienste verpflichten sich zu 99,9% (drei Neunen). Verpflichten Sie sich nur zu 99,99% oder hoeher, wenn Ihre Architektur dies wirklich unterstuetzt.
Wie ueberwache ich meine tatsaechliche Verfuegbarkeit?
Verwenden Sie einen externen Monitoring-Dienst, der Ihre Endpoints von ausserhalb Ihrer Infrastruktur in regelmaessigen Abstaenden (alle 10-60 Sekunden) prueft. Internes Monitoring kann Ausfaelle uebersehen, die Ihre Benutzer betreffen, daher geben externe Pruefungen aus mehreren Regionen das genaueste Bild.
Kennen Sie Ihre Verfuegbarkeit. Schuetzen Sie Ihr SLA.
PulseAPI ueberwacht Ihre Endpoints alle 10 Sekunden und alarmiert Sie sofort, wenn etwas schiefgeht. Statusseiten, Incident Management und Bereitschaft, alles an einem Ort.