Die 3 Testmethoden #

Methode 1: Tabletop Exercise (Walkthrough) #

Was: Simuliertes Szenario, alle Rollen sitzen zusammen, durchspielen was passiert — ohne echte Systeme.

Vorbereitung: 2 – 4 Stunden.

Durchführung: 2 – 3 Stunden (Tabletop Session).

Beispiel-Szenario: “Es ist Montag 9 Uhr. Sie kommen ins Büro. Der ERP-Server ist offline und das Backup-System antwortet nicht. Was tun Sie?”

Rollen:

Incident Commander: Leitet die Diskussion
IT-Leiter: Diagnostiziert was los ist
CFO: Evaluiert geschäftliche Konsequenzen
Communications Manager: Plant externe Kommunikation

Das Team durchspielt: “Was ist der erste Anruf? An wen geben wir den Incident?Was sagen wir dem Kunden?”

Nutzen:

Identifiziert Lücken im IR-Plan
Klärt Rollen und Verantwortlichkeiten
Sehr niedrige Ausfallkosten (nichts geht wirklich down)
Good für Krisenkommunikation und Entscheidungsfindung

Schwäche:

Testet nicht die technischen Wiederherstellungsschritte
Oft zu theoretisch

Methode 2: Teiltest (Partial Recovery Test) #

Was: Ein einzelnes System wird tatsächlich aus Backup wiederhergestellt — aber nicht in Production. In Test-Umgebung oder alter Hardware.

Vorbereitung: 1 Woche (Planung, Backup-Vorbereitung).

Durchführung: 4 – 8 Stunden (echte Recovery).

Beispiel-Szenario: “Wir testen ERP-Recovery. Wir nehmen das neueste ERP-Backup und stellen es auf einer separaten Test-VM wieder her. Wir booten die VM, verifizieren dass das System funktioniert, und dann löschen wir die Test-VM.”

Das ist ein echte Recovery — aber nicht risikobehaftet, weil Production nicht berührt wird.

Nutzen:

Testet den echten Recovery-Prozess
Misst tatsächliche Recovery-Zeit (nicht geschätzt)
Identifiziert Fehler im Backup oder Recovery-Software
Dokumentiertes Ergebnis für Audits

Schwäche:

Nur ein System pro Test
Testet nicht die Recovery-Reihenfolge (welches System zuerst?)

Methode 3: Volltest (Full Disaster Recovery Test) #

Was: Alle kritischen Systeme werden gleichzeitig aus Backup wiederhergestellt — vollständiger Prozess.

Vorbereitung: 4 Wochen (Planung, Infrastruktur-Vorbereitung, kommunizieren mit Teams).

Durchführung: 1 – 3 Tage (Vollständige Recovery).

Beispiel-Szenario: “Wir simulieren einen kompletten Datacenter-Ausfall. Alle Produktions-Systeme (AD, ERP, Fileserver, E‑Mail) werden in der Recovery-Umgebung wiederhergestellt. Wir testen die Recovery-Reihenfolge, die Inter-System-Kommunikation, und am Ende: kann der Geschäftsbetrieb funktionieren?”

Das ist eine vollständige End-to-End Recovery — unter Testbedingungen.

Nutzen:

Testet gesamtes Resilienz-System
Identifiziert Abhängigkeitsprobleme (z.B. “ERP funktioniert nicht ohne Fileserver”)
Misst gesamte RTO (nicht einzeln pro System)
Validiert dass Backup-Infrastruktur funktioniert
Größte Konfidenz in tatsächliche Recovery-Fähigkeit

Schwäche:

Großer Aufwand
Erfordert dedizierte Infrastruktur (oder Production-Ausfallzeitfenster)
Teuer
Logistisch komplex (alle Teams beteiligt)

BSI-Anforderungen: CON.3.A11 Testfrequenz #

Das BSI IT-Grundschutz Profil CON.3 (Continuity Management) definiert Testanforderungen:

CON.3.A11: “Wiederherstellung kritischer Informationen und Systeme sollten regelmäßig getestet werden.”

Das ist vage, aber in der Praxis wird das so interpretiert:

Kritikalität System	Tabletop	Teiltest	Volltest
Kritisch	2x p.a.	4x p.a.	1x p.a.
Wichtig	1x p.a.	2x p.a.	optional
Normal	1x p.a.	1x p.a.	optional

Für größere Unternehmen mit NIS2-Compliance wird ein jährlicher Volltest fast erwartet.

Praktischer Test-Kalender #

Ein pragmatischer Ansatz für ein mittelständisches Unternehmen:

Q1 (Jan-Mär):
├── Woche 1-2: Tabletop Exercise (alle)
├── Woche 3-4: Teiltest ERP
└── Dokumentation & Lessons Learned

Q2 (Apr-Jun):
├── Woche 1-2: Tabletop Exercise fokussiert auf Cybersecurity-Szenario
└── Woche 3-4: Teiltest Fileserver

Q3 (Jul-Sep):
├── Woche 1-2: Teiltest E-Mail
└── Woche 3-4: Lessons Learned Session

Q4 (Okt-Dez):
├── Woche 1-4: Volltest (alle Systeme) — inklusive externe Evaluation
└── Management Report & Plan für nächstes Jahr

Das deckt BSI-Anforderungen ab ohne Production zu beeinträchtigen.

Dokumentation der Testergebnisse #

Nach jedem Test sollte dokumentiert werden:

Test Summary:

Datum, Testtyp (Tabletop/Teiltest/Volltest)
Getestete Systeme
Teilnehmer/Rollen
Testziel

Erkenntnisse:

Was funktionierte?
Was funktionierte nicht?
Kritische Fehler (mit Remediation-Plan)
Erkenntnisse für nächsten Test

RTO-Messung:

Geschätzte RTO (alt)
Tatsächliche RTO (Test-Ergebnis)
Differenz analysieren

Integrität-Validierung:

Wurden Daten korrekt wiederhergestellt?
Gab es Korruption oder Datenverlust?
Systeme funktionierten normal nach Recovery?

Approvals:

Unterschrift von IT-Leiter, CIO, eventuell CRO (Chief Risk Officer)

Dieses Dokument ist später dein Beweis gegenüber Auditoren, dass Recovery tatsächlich funktioniert.

Häufige Fehler bei DR-Tests #

Fehler 1: Test-Umgebung ist nicht realistisch “Wir haben getestet, aber nur mit 10% der echten Datenmenge. Realer Test würde 10x länger dauern.”

Lösung: Nutze echte Backup-Daten und echte Hardware-Dimensionierung.

Fehler 2: Nur die IT testet, nicht die Business “Das IT-Team hat die Recovery durchgeführt, aber wir haben nicht getestet ob das Business damit arbeiten kann.”

Lösung: Bring Business-Rollen in den Test (nicht nur durchlesen, sondern testen dass ihre Anwendungen funktionieren).

Fehler 3: Test-Daten werden nicht gelöscht “Nach dem Test bleibt ein Shadow-System online, das wird vergessen, und irgendwann ist es out-of-sync zur Production.”

Lösung: Explizite Cleanup. Nach Test: Systeme löschen, Dokumentation archivieren.

Fehler 4: Tests zeigen Probleme, werden nicht remedied “Der Fulltest hat gezeigt, dass Recovery 10 Stunden dauert, nicht 4 wie RTO vorsieht. Aber wir haben nichts gemacht.”

Lösung: Recovery-Findings müssen in einen Remediation-Backlog gehen. Eskalieren bis fix.

RTO-Messung im Test #

Das ist der kritischste Punkt eines -Tests: RTO tatsächlich messen.

Das bedeutet nicht nur “Recovery dauerte 2 Stunden”. Es bedeutet:

Start-Zeit dokumentieren (wann wurde Recovery gestartet)
Erste Daten verfügbar (wann war das System online, aber noch nicht getestet)
Verifizierung abgeschlossen (wann wissen Sie, dass das System sauber ist)
Full functionality (wann können User normal arbeiten?)

Typischerweise: RTO = Full Functionality Zeitpunkt.

Ein Beispiel:

10:00 Uhr: Recovery gestartet
11:45 Uhr: Server bootet
12:00 Uhr: Erste Login funktioniert
12:15 Uhr: Integrität-Check ok
12:30 Uhr: User können wieder arbeiten

RTO gemessen: 2.5 Stunden (10:00 — 12:30).

Diese Messung ist wertvoll für Zukünftige Recovery-Planung.

Häufige Fragen #

Müssen wir Production-Systeme für Volltest abschalten? Technisch nicht — wenn Sie dedizierte Test-Infrastruktur haben. Aber oft ist ein Ausfallzeitfenster sauberer.

Wie oft müssen wir Volltest machen? Mindestens 1x pro Jahr. Aggressive Resilienz-Programme machen 2x pro Jahr.

Können wir Tests mit externe Consultant outsourcen? Ja, aber nur wenn Ihr Team auch dabei ist und lernt. Ein Test, bei dem nur eine externe Firma teilnimmt, hilft wenig.

Unsere Erfahrung, ihre Vorteile

Unsere Partner

Unternehmen

Anwendungen

Branchen

Lösungs-Partner

Produkt-Übersicht

Sichere Speichersysteme

Daten-souveräne KI

Langfristig abgesichert

Lesestoff

Events & Webinare

Unsere Kunden

Vernetzen

Disaster Recovery Test: So testen Sie Ihren DR-Plan

Die 3 Testmethoden #

Methode 1: Tabletop Exercise (Walkthrough) #

Methode 2: Teiltest (Partial Recovery Test) #

Methode 3: Volltest (Full Disaster Recovery Test) #

BSI-Anforderungen: CON.3.A11 Testfrequenz #

Praktischer Test-Kalender #

Dokumentation der Testergebnisse #

Häufige Fehler bei DR-Tests #

RTO-Messung im Test #

Häufige Fragen #