Artikel vom 3. Juni 2026
Disaster Recovery Test: So testen Sie Ihren DR-Plan
Die 3 Testmethoden #
Methode 1: Tabletop Exercise (Walkthrough) #
Was: Simuliertes Szenario, alle Rollen sitzen zusammen, durchspielen was passiert — ohne echte Systeme.
Vorbereitung: 2 – 4 Stunden.
Durchführung: 2 – 3 Stunden (Tabletop Session).
Beispiel-Szenario: “Es ist Montag 9 Uhr. Sie kommen ins Büro. Der ERP-Server ist offline und das Backup-System antwortet nicht. Was tun Sie?”
Rollen:
- Incident Commander: Leitet die Diskussion
- IT-Leiter: Diagnostiziert was los ist
- CFO: Evaluiert geschäftliche Konsequenzen
- Communications Manager: Plant externe Kommunikation
Das Team durchspielt: “Was ist der erste Anruf? An wen geben wir den Incident?Was sagen wir dem Kunden?”
Nutzen:
- Identifiziert Lücken im IR-Plan
- Klärt Rollen und Verantwortlichkeiten
- Sehr niedrige Ausfallkosten (nichts geht wirklich down)
- Good für Krisenkommunikation und Entscheidungsfindung
Schwäche:
- Testet nicht die technischen Wiederherstellungsschritte
- Oft zu theoretisch
Methode 2: Teiltest (Partial Recovery Test) #
Was: Ein einzelnes System wird tatsächlich aus Backup wiederhergestellt — aber nicht in Production. In Test-Umgebung oder alter Hardware.
Vorbereitung: 1 Woche (Planung, Backup-Vorbereitung).
Durchführung: 4 – 8 Stunden (echte Recovery).
Beispiel-Szenario: “Wir testen ERP-Recovery. Wir nehmen das neueste ERP-Backup und stellen es auf einer separaten Test-VM wieder her. Wir booten die VM, verifizieren dass das System funktioniert, und dann löschen wir die Test-VM.”
Das ist ein echte Recovery — aber nicht risikobehaftet, weil Production nicht berührt wird.
Nutzen:
- Testet den echten Recovery-Prozess
- Misst tatsächliche Recovery-Zeit (nicht geschätzt)
- Identifiziert Fehler im Backup oder Recovery-Software
- Dokumentiertes Ergebnis für Audits
Schwäche:
- Nur ein System pro Test
- Testet nicht die Recovery-Reihenfolge (welches System zuerst?)
Methode 3: Volltest (Full Disaster Recovery Test) #
Was: Alle kritischen Systeme werden gleichzeitig aus Backup wiederhergestellt — vollständiger Prozess.
Vorbereitung: 4 Wochen (Planung, Infrastruktur-Vorbereitung, kommunizieren mit Teams).
Durchführung: 1 – 3 Tage (Vollständige Recovery).
Beispiel-Szenario: “Wir simulieren einen kompletten Datacenter-Ausfall. Alle Produktions-Systeme (AD, ERP, Fileserver, E‑Mail) werden in der Recovery-Umgebung wiederhergestellt. Wir testen die Recovery-Reihenfolge, die Inter-System-Kommunikation, und am Ende: kann der Geschäftsbetrieb funktionieren?”
Das ist eine vollständige End-to-End Recovery — unter Testbedingungen.
Nutzen:
- Testet gesamtes Resilienz-System
- Identifiziert Abhängigkeitsprobleme (z.B. “ERP funktioniert nicht ohne Fileserver”)
- Misst gesamte RTO (nicht einzeln pro System)
- Validiert dass Backup-Infrastruktur funktioniert
- Größte Konfidenz in tatsächliche Recovery-Fähigkeit
Schwäche:
- Großer Aufwand
- Erfordert dedizierte Infrastruktur (oder Production-Ausfallzeitfenster)
- Teuer
- Logistisch komplex (alle Teams beteiligt)
BSI-Anforderungen: CON.3.A11 Testfrequenz #
Das BSI IT-Grundschutz Profil CON.3 (Continuity Management) definiert Testanforderungen:
CON.3.A11: “Wiederherstellung kritischer Informationen und Systeme sollten regelmäßig getestet werden.”
Das ist vage, aber in der Praxis wird das so interpretiert:
| Kritikalität System | Tabletop | Teiltest | Volltest |
|---|---|---|---|
| **Kritisch** | 2x p.a. | 4x p.a. | 1x p.a. |
| **Wichtig** | 1x p.a. | 2x p.a. | optional |
| **Normal** | 1x p.a. | 1x p.a. | optional |
Für größere Unternehmen mit NIS2-Compliance wird ein jährlicher Volltest fast erwartet.
Praktischer Test-Kalender #
Ein pragmatischer Ansatz für ein mittelständisches Unternehmen:
Q1 (Jan-Mär):
├── Woche 1-2: Tabletop Exercise (alle)
├── Woche 3-4: Teiltest ERP
└── Dokumentation & Lessons Learned
Q2 (Apr-Jun):
├── Woche 1-2: Tabletop Exercise fokussiert auf Cybersecurity-Szenario
└── Woche 3-4: Teiltest Fileserver
Q3 (Jul-Sep):
├── Woche 1-2: Teiltest E-Mail
└── Woche 3-4: Lessons Learned Session
Q4 (Okt-Dez):
├── Woche 1-4: Volltest (alle Systeme) — inklusive externe Evaluation
└── Management Report & Plan für nächstes Jahr
Das deckt BSI-Anforderungen ab ohne Production zu beeinträchtigen.
Dokumentation der Testergebnisse #
Nach jedem Test sollte dokumentiert werden:
Test Summary:
- Datum, Testtyp (Tabletop/Teiltest/Volltest)
- Getestete Systeme
- Teilnehmer/Rollen
- Testziel
Erkenntnisse:
- Was funktionierte?
- Was funktionierte nicht?
- Kritische Fehler (mit Remediation-Plan)
- Erkenntnisse für nächsten Test
RTO-Messung:
- Geschätzte RTO (alt)
- Tatsächliche RTO (Test-Ergebnis)
- Differenz analysieren
Integrität-Validierung:
- Wurden Daten korrekt wiederhergestellt?
- Gab es Korruption oder Datenverlust?
- Systeme funktionierten normal nach Recovery?
Approvals:
- Unterschrift von IT-Leiter, CIO, eventuell CRO (Chief Risk Officer)
Dieses Dokument ist später dein Beweis gegenüber Auditoren, dass Recovery tatsächlich funktioniert.
Häufige Fehler bei DR-Tests #
Fehler 1: Test-Umgebung ist nicht realistisch “Wir haben getestet, aber nur mit 10% der echten Datenmenge. Realer Test würde 10x länger dauern.”
Lösung: Nutze echte Backup-Daten und echte Hardware-Dimensionierung.
Fehler 2: Nur die IT testet, nicht die Business “Das IT-Team hat die Recovery durchgeführt, aber wir haben nicht getestet ob das Business damit arbeiten kann.”
Lösung: Bring Business-Rollen in den Test (nicht nur durchlesen, sondern testen dass ihre Anwendungen funktionieren).
Fehler 3: Test-Daten werden nicht gelöscht “Nach dem Test bleibt ein Shadow-System online, das wird vergessen, und irgendwann ist es out-of-sync zur Production.”
Lösung: Explizite Cleanup. Nach Test: Systeme löschen, Dokumentation archivieren.
Fehler 4: Tests zeigen Probleme, werden nicht remedied “Der Fulltest hat gezeigt, dass Recovery 10 Stunden dauert, nicht 4 wie RTO vorsieht. Aber wir haben nichts gemacht.”
Lösung: Recovery-Findings müssen in einen Remediation-Backlog gehen. Eskalieren bis fix.
RTO-Messung im Test #
Das ist der kritischste Punkt eines -Tests: RTO tatsächlich messen.
Das bedeutet nicht nur “Recovery dauerte 2 Stunden”. Es bedeutet:
- Start-Zeit dokumentieren (wann wurde Recovery gestartet)
- Erste Daten verfügbar (wann war das System online, aber noch nicht getestet)
- Verifizierung abgeschlossen (wann wissen Sie, dass das System sauber ist)
- Full functionality (wann können User normal arbeiten?)
Typischerweise: RTO = Full Functionality Zeitpunkt.
Ein Beispiel:
- 10:00 Uhr: Recovery gestartet
- 11:45 Uhr: Server bootet
- 12:00 Uhr: Erste Login funktioniert
- 12:15 Uhr: Integrität-Check ok
- 12:30 Uhr: User können wieder arbeiten
RTO gemessen: 2.5 Stunden (10:00 — 12:30).
Diese Messung ist wertvoll für Zukünftige Recovery-Planung.
Häufige Fragen #
Müssen wir Production-Systeme für Volltest abschalten? Technisch nicht — wenn Sie dedizierte Test-Infrastruktur haben. Aber oft ist ein Ausfallzeitfenster sauberer.
Wie oft müssen wir Volltest machen? Mindestens 1x pro Jahr. Aggressive Resilienz-Programme machen 2x pro Jahr.
Können wir Tests mit externe Consultant outsourcen? Ja, aber nur wenn Ihr Team auch dabei ist und lernt. Ein Test, bei dem nur eine externe Firma teilnimmt, hilft wenig.
Disaster Recovery
Disaster Recovery bezeichnet die strukturierten Prozesse und technischen Maßnahmen, die sicherstellen, dass IT-Systeme nach einem schwerwiegenden Ausfall — Ransomware-Angriff, Hardwareversagen, Rechenzentrumsausfall — innerhalb definierter Zeitrahmen (RTO) mit maximalem Datenverlust (RPO) wiederhergestellt werden können.