Artikel vom 27. Mai 2026
Recovery-Runbook: Was hineingehört und wer es pflegt
Was in ein Recovery-Runbook gehört #
Für jedes kritische System #
Ein Runbook sollte pro kritischem System aufgebaut werden. Als Beispiel: “Microsoft Active Directory Recovery Runbook” oder “SAP ERP Recovery Runbook”.
1. System-Übersicht (1 Seite)
- Name, Zweck, Business-Owner
- Abhängige Systeme (Was braucht dieses System um zu laufen? z.B. AD, Fileserver, Netzwerk)
- Abhängige Systeme (Welche Systeme hängen von diesem System ab? z.B. alle Clients brauchen AD)
- Kritisch: Wiederherstellungsreihenfolge. Active Directory muss z.B. VOR den Exchange-Servern wiederhergestellt werden.
2. RTO/RPO Definitionen
- RTO (Recovery Time Objective): Wie lange darf der Ausfall dauern? z.B. “AD RTO: 2 Stunden”
- RPO (Recovery Point Objective): Wie viel Datenverlust ist akzeptabel? z.B. “AD RPO: 1 Stunde” (bedeutet: wir können 1 Stunde an Passwort-Änderungen verlieren)
3. Backup-Standorte und Zugriff
- Wo sind die Backups dieses Systems gespeichert? (Tier 1 Online, Tier 2 Air-Gap, Tier 3 )
- Wie greife ich auf die Backups zu? (IP-Adresse, Portnummer, Zugangsweg)
- Wer hat Admin-Zugriff auf das Backup-System? (Name, Telefon, auch als Papier-Backup)
- Was ist das Backup-Verwaltungs-Tool? (z.B. Veeam, Bacula, Commvault)
4. Wiederherstellungs-Schritte (Nummeriert, detailliert)
Beispiel für “Windows Server Recovery”:
1. Boot Recovery-Server aus ISO (Silent Brick Recovery Media oder Backup-Software ISO)
2. Wähle das Backup aus [DATUM/UHRZEIT] aus
3. Verifiziere das Backup ist nicht kompromittiert (Check Backup Integrity Tool)
4. Starte Recovery zu [Recovery-Server-Name] in isolierter Netzwerk-Zone (keine Production-Verbindung)
5. Warte bis Recovery 100% abgeschlossen (ca. X Minuten für dieses System)
6. Boot den Recovery-Server und logge Dich als Local Admin ein (User: xxxx, Pwd: [in Tresor])
7. Öffne Command Prompt, verifiziere Disk-Space, RAM, Network-Interface funktionieren
8. Laufe Integrity Checks: diskpart /verify, ipconfig /all, systeminfo
9. Wenn alle Checks OK, starte Services: net start servicename
10. Teste Funktionalität: logge Dich als Domain User ein, erstelle eine Test-Datei, ...
11. Wenn alles OK, migriere VM zu Production-Cluster (beschreibe wie)
12. Update DNS/DHCP falls nötig
13. Dokumentiere Abschlusszeit in der Recovery-Log
5. Test-Verfahren
- Wie testen wir diesen Runbook regelmäßig?
- Beispiel: “Quarterly Recovery Test: Statte einen Partial Recovery auf Test-Hardware durch, ohne Production zu beeinflussen”
- Erfolgs-Kriterien: System bootet, Login funktioniert, Services starten, Datenintegrität ok
6. Admin-Credentials (SEPARATELY STORED)
- Passwords sollten NICHT im Runbook selbst stehen
- Statt dessen: “Local Admin Credential: Im Tresor unter [Location], aktualisiert [Datum]”
- Oder: Hinterleger Credentials in einem verschlüsselten Safe, nur für Recovery
- Alternative: Passwort-Manager mit Zugriff nur für Incident Commander
7. Troubleshooting-Guide
- “Wenn Recovery abbricht mit Fehler XYZ: mache ABC”
- “Wenn das Backup nicht lesbar ist: Versuche Tier 3 -Backup statt Tier 2”
- “Wenn die Recovery länger dauert als RTO: nutze Bare-Metal-Recovery für die kritischsten Daten, Rest später”
8. Post-Recovery Validation
- Wie verifizieren wir, dass das System wirklich ok ist?
- Beispiel für Fileserver: “Starte Integrity Check auf allen Shares, überprüfe dass keine Korruption vorhanden ist”
- Beispiel für Database: “Führe DBCC CHECKDB aus, überprüfe Datenbankgröße, führe einen Test-Query aus”
Die 7 Kernfragen für jedes Runbook #
Ein gutes Recovery-Runbook antwortet auf diese 7 Fragen:
- Was wird wiederhergestellt? (System-Name, Version, Betriebssystem)
- Woher wird es wiederhergestellt? (Backup-Location, Zugriff, Credentials)
- Wohin wird es wiederhergestellt? (Recovery-Hardware, Netzwerk-Zone, IP-Adressen)
- In welcher Reihenfolge? (Abhängigkeitsdiagramm)
- Wie lange dauert das? (RTO-Schätzung, tatsächlich gemessen aus letztem Test)
- Wie verifizieren wir Erfolg? (Validierungs-Schritte)
- Was tun wir, wenn es schief geht? (Troubleshooting)
Wenn Ihr Runbook diese 7 Fragen nicht klar beantwortet, ist es unvollständig.
Wer schreibt und pflegt das Runbook #
Schreiben: Die Team-Mitglieder, die das System normalerweise betreuen. Sie kennen die Fallstricke.
Review: Der IT-Manager und mindestens eine weitere Person. Vier-Augen-Prinzip.
Testing: Einmal pro Quartal sollte der Runbook als echte Recovery durchgespielt werden. Nicht nur theoretisch — praktisch. Mit echtem Backup, echter Hardware (oder VM), echter Restore-Operation.
Pflege: Nach jeder größeren Systemänderung (Update, Config-Änderung, Upgrade). Mindestens jährlich ein Refresh durchführen, um sicherzustellen, dass Passwords, IP-Adressen, etc. noch aktuell sind.
Warum es offline verfügbar sein muss #
Das ist nicht optional: Der Recovery-Runbook muss auf Papier gedruckt im Tresor oder Safe verfügbar sein.
Warum? Weil wenn ein Ransomware-Angriff Ihr Firmennetzwerk lahmlegt, können Sie nicht auf das Wiki oder SharePoint zugreifen. Sie brauchen ein gedrucktes Handbuch, das Ihnen sagt:
- Hier ist die IP-Adresse des Air-Gap-Backup-Systems
- Hier ist der Recovery-Server wo wir Systeme wiederherstellen
- Hier ist die Reihenfolge der Wiederherstellung
- Hier sind die Admin-Credentials (oder der Hinweis wo sie sind)
Eine Organisation, die einen Recovery-Runbook nur digital hat, hat keinen Recovery-Runbook. Sie hat einen gut gemeinen Text im Wiki, der zu spät verfügbar wird.
Häufige Fehler #
Fehler 1: Zu generisch “SAP kann aus Backup wiederhergestellt werden” ist nicht genug. Ein guter Runbook hat 20 – 50 detaillierte Schritte.
Fehler 2: Nicht getestet Ein Runbook, der nicht regelmäßig (mindestens quartalsweise) durchgespielt wurde, ist ein Mythos. Er funktioniert erst wenn Sie ihn testen.
Fehler 3: Veraltet Das System wurde upgraded, die IP-Adresse des Backup-Systems geändert, der Admin-Name geändert — aber der Runbook nicht. Der Runbook wird zum Hindernis.
Fehler 4: Zu abhängig von einer Person Nur ein Mensch kennt den Runbook. Wenn diese Person im Urlaub ist oder selbst betroffen vom Incident, ist der Plan sinnlos.
Fehler 5: Zu viele Credentials im Dokument Der Runbook sollte NICHT alle Passwörter enthalten. Das ist ein Sicherheitsrisiko. Statt dessen: Verweis auf den Safe, wo die Credentials liegen.
Häufige Fragen #
Wie detailliert muss ein Runbook sein? Detailliert genug, dass ein IT-Techniker ohne spezialisiertes Wissen das System wiederherstellen könnte. Das heißt: Click-for-Click Anweisungen wo nötig.
Wie oft müssen wir den Runbook testen? Mindestens quartalsweise (4x pro Jahr). Best Practice: einmal pro Quartal ein echter Recovery-Test.
Was ist der Unterschied zwischen Recovery-Runbook und Disaster Recovery Plan? Der -Plan ist strategisch und organisatorisch (wie reagieren wir auf eine Katastrophe?). Der Runbook ist taktisch und spezifisch (wie bringen wir System X wieder hoch?).
Disaster Recovery
Disaster Recovery bezeichnet die strukturierten Prozesse und technischen Maßnahmen, die sicherstellen, dass IT-Systeme nach einem schwerwiegenden Ausfall — Ransomware-Angriff, Hardwareversagen, Rechenzentrumsausfall — innerhalb definierter Zeitrahmen (RTO) mit maximalem Datenverlust (RPO) wiederhergestellt werden können.
WORM
WORM (Write Once, Read Many) bezeichnet ein Speicherprinzip, bei dem Daten einmal geschrieben und danach technisch nicht mehr verändert oder gelöscht werden können — bei Hardware-WORM ist diese Unveränderlichkeit eine physikalische Eigenschaft des Speicher-Controllers, unabhängig von Software, Betriebssystem oder Benutzerprivilegien.
WORM
WORM (Write Once, Read Many) bezeichnet ein Speicherprinzip, bei dem Daten einmal geschrieben und danach technisch nicht mehr verändert oder gelöscht werden können — bei Hardware-WORM ist diese Unveränderlichkeit eine physikalische Eigenschaft des Speicher-Controllers, unabhängig von Software, Betriebssystem oder Benutzerprivilegien.