Was in ein Recovery-Runbook gehört #

Für jedes kritische System #

Ein Runbook sollte pro kritischem System aufgebaut werden. Als Beispiel: “Microsoft Active Directory Recovery Runbook” oder “SAP ERP Recovery Runbook”.

1. System-Übersicht (1 Seite)

Name, Zweck, Business-Owner
Abhängige Systeme (Was braucht dieses System um zu laufen? z.B. AD, Fileserver, Netzwerk)
Abhängige Systeme (Welche Systeme hängen von diesem System ab? z.B. alle Clients brauchen AD)
Kritisch: Wiederherstellungsreihenfolge. Active Directory muss z.B. VOR den Exchange-Servern wiederhergestellt werden.

2. RTO/RPO Definitionen

RTO (Recovery Time Objective): Wie lange darf der Ausfall dauern? z.B. “AD RTO: 2 Stunden”
RPO (Recovery Point Objective): Wie viel Datenverlust ist akzeptabel? z.B. “AD RPO: 1 Stunde” (bedeutet: wir können 1 Stunde an Passwort-Änderungen verlieren)

3. Backup-Standorte und Zugriff

Wo sind die Backups dieses Systems gespeichert? (Tier 1 Online, Tier 2 Air-Gap, Tier 3 )
Wie greife ich auf die Backups zu? (IP-Adresse, Portnummer, Zugangsweg)
Wer hat Admin-Zugriff auf das Backup-System? (Name, Telefon, auch als Papier-Backup)
Was ist das Backup-Verwaltungs-Tool? (z.B. Veeam, Bacula, Commvault)

4. Wiederherstellungs-Schritte (Nummeriert, detailliert)

Beispiel für “Windows Server Recovery”:

1. Boot Recovery-Server aus ISO (Silent Brick Recovery Media oder Backup-Software ISO)
2. Wähle das Backup aus [DATUM/UHRZEIT] aus
3. Verifiziere das Backup ist nicht kompromittiert (Check Backup Integrity Tool)
4. Starte Recovery zu [Recovery-Server-Name] in isolierter Netzwerk-Zone (keine Production-Verbindung)
5. Warte bis Recovery 100% abgeschlossen (ca. X Minuten für dieses System)
6. Boot den Recovery-Server und logge Dich als Local Admin ein (User: xxxx, Pwd: [in Tresor])
7. Öffne Command Prompt, verifiziere Disk-Space, RAM, Network-Interface funktionieren
8. Laufe Integrity Checks: diskpart /verify, ipconfig /all, systeminfo
9. Wenn alle Checks OK, starte Services: net start servicename
10. Teste Funktionalität: logge Dich als Domain User ein, erstelle eine Test-Datei, ...
11. Wenn alles OK, migriere VM zu Production-Cluster (beschreibe wie)
12. Update DNS/DHCP falls nötig
13. Dokumentiere Abschlusszeit in der Recovery-Log

5. Test-Verfahren

Wie testen wir diesen Runbook regelmäßig?
Beispiel: “Quarterly Recovery Test: Statte einen Partial Recovery auf Test-Hardware durch, ohne Production zu beeinflussen”
Erfolgs-Kriterien: System bootet, Login funktioniert, Services starten, Datenintegrität ok

6. Admin-Credentials (SEPARATELY STORED)

Passwords sollten NICHT im Runbook selbst stehen
Statt dessen: “Local Admin Credential: Im Tresor unter [Location], aktualisiert [Datum]”
Oder: Hinterleger Credentials in einem verschlüsselten Safe, nur für Recovery
Alternative: Passwort-Manager mit Zugriff nur für Incident Commander

7. Troubleshooting-Guide

“Wenn Recovery abbricht mit Fehler XYZ: mache ABC”
“Wenn das Backup nicht lesbar ist: Versuche Tier 3 -Backup statt Tier 2”
“Wenn die Recovery länger dauert als RTO: nutze Bare-Metal-Recovery für die kritischsten Daten, Rest später”

8. Post-Recovery Validation

Wie verifizieren wir, dass das System wirklich ok ist?
Beispiel für Fileserver: “Starte Integrity Check auf allen Shares, überprüfe dass keine Korruption vorhanden ist”
Beispiel für Database: “Führe DBCC CHECKDB aus, überprüfe Datenbankgröße, führe einen Test-Query aus”

Die 7 Kernfragen für jedes Runbook #

Ein gutes Recovery-Runbook antwortet auf diese 7 Fragen:

Was wird wiederhergestellt? (System-Name, Version, Betriebssystem)
Woher wird es wiederhergestellt? (Backup-Location, Zugriff, Credentials)
Wohin wird es wiederhergestellt? (Recovery-Hardware, Netzwerk-Zone, IP-Adressen)
In welcher Reihenfolge? (Abhängigkeitsdiagramm)
Wie lange dauert das? (RTO-Schätzung, tatsächlich gemessen aus letztem Test)
Wie verifizieren wir Erfolg? (Validierungs-Schritte)
Was tun wir, wenn es schief geht? (Troubleshooting)

Wenn Ihr Runbook diese 7 Fragen nicht klar beantwortet, ist es unvollständig.

Wer schreibt und pflegt das Runbook #

Schreiben: Die Team-Mitglieder, die das System normalerweise betreuen. Sie kennen die Fallstricke.

Review: Der IT-Manager und mindestens eine weitere Person. Vier-Augen-Prinzip.

Testing: Einmal pro Quartal sollte der Runbook als echte Recovery durchgespielt werden. Nicht nur theoretisch — praktisch. Mit echtem Backup, echter Hardware (oder VM), echter Restore-Operation.

Pflege: Nach jeder größeren Systemänderung (Update, Config-Änderung, Upgrade). Mindestens jährlich ein Refresh durchführen, um sicherzustellen, dass Passwords, IP-Adressen, etc. noch aktuell sind.

Warum es offline verfügbar sein muss #

Das ist nicht optional: Der Recovery-Runbook muss auf Papier gedruckt im Tresor oder Safe verfügbar sein.

Warum? Weil wenn ein Ransomware-Angriff Ihr Firmennetzwerk lahmlegt, können Sie nicht auf das Wiki oder SharePoint zugreifen. Sie brauchen ein gedrucktes Handbuch, das Ihnen sagt:

Hier ist die IP-Adresse des Air-Gap-Backup-Systems
Hier ist der Recovery-Server wo wir Systeme wiederherstellen
Hier ist die Reihenfolge der Wiederherstellung
Hier sind die Admin-Credentials (oder der Hinweis wo sie sind)

Eine Organisation, die einen Recovery-Runbook nur digital hat, hat keinen Recovery-Runbook. Sie hat einen gut gemeinen Text im Wiki, der zu spät verfügbar wird.

Häufige Fehler #

Fehler 1: Zu generisch “SAP kann aus Backup wiederhergestellt werden” ist nicht genug. Ein guter Runbook hat 20 – 50 detaillierte Schritte.

Fehler 2: Nicht getestet Ein Runbook, der nicht regelmäßig (mindestens quartalsweise) durchgespielt wurde, ist ein Mythos. Er funktioniert erst wenn Sie ihn testen.

Fehler 3: Veraltet Das System wurde upgraded, die IP-Adresse des Backup-Systems geändert, der Admin-Name geändert — aber der Runbook nicht. Der Runbook wird zum Hindernis.

Fehler 4: Zu abhängig von einer Person Nur ein Mensch kennt den Runbook. Wenn diese Person im Urlaub ist oder selbst betroffen vom Incident, ist der Plan sinnlos.

Fehler 5: Zu viele Credentials im Dokument Der Runbook sollte NICHT alle Passwörter enthalten. Das ist ein Sicherheitsrisiko. Statt dessen: Verweis auf den Safe, wo die Credentials liegen.

Häufige Fragen #

Wie detailliert muss ein Runbook sein? Detailliert genug, dass ein IT-Techniker ohne spezialisiertes Wissen das System wiederherstellen könnte. Das heißt: Click-for-Click Anweisungen wo nötig.

Wie oft müssen wir den Runbook testen? Mindestens quartalsweise (4x pro Jahr). Best Practice: einmal pro Quartal ein echter Recovery-Test.

Was ist der Unterschied zwischen Recovery-Runbook und Disaster Recovery Plan? Der -Plan ist strategisch und organisatorisch (wie reagieren wir auf eine Katastrophe?). Der Runbook ist taktisch und spezifisch (wie bringen wir System X wieder hoch?).

Unsere Erfahrung, ihre Vorteile

Unsere Partner

Unternehmen

Anwendungen

Branchen

Lösungs-Partner

Produkt-Übersicht

Sichere Speichersysteme

Daten-souveräne KI

Langfristig abgesichert

Lesestoff

Events & Webinare

Unsere Kunden

Vernetzen

Recovery-Runbook: Was hineingehört und wer es pflegt

Was in ein Recovery-Runbook gehört #

Für jedes kritische System #

Die 7 Kernfragen für jedes Runbook #

Wer schreibt und pflegt das Runbook #

Warum es offline verfügbar sein muss #

Häufige Fehler #

Häufige Fragen #

Disaster Recovery

WORM

WORM

Disclaimer

Was in ein Reco­very-Run­book gehört #

Für jedes kri­ti­sche Sys­tem #

Die 7 Kern­fra­gen für jedes Run­book #

Wer schreibt und pflegt das Run­book #

War­um es off­line ver­füg­bar sein muss #

Häu­fi­ge Feh­ler #

Häu­fi­ge Fra­gen #

Disaster Recovery

WORM

WORM

Disclaimer

Was in ein Recovery-Runbook gehört #

Für jedes kritische System #

Die 7 Kernfragen für jedes Runbook #

Wer schreibt und pflegt das Runbook #

Warum es offline verfügbar sein muss #

Häufige Fehler #

Häufige Fragen #