Crash Faults Börsenlexikon Vorheriger Begriff: Istanbul BFT (IBFT) Nächster Begriff: Omission Faults

Eine Art von Fehlern in verteilten Systemen, bei denen ein Node oder eine Komponente abrupt ausfällt oder nicht mehr reagiert, ohne jedoch falsche oder böswillige Daten zu senden

Crash Faults bezeichnen eine spezifische Art von Systemfehler in verteilten Systemen und Netzwerken, bei denen ein Knoten (z. B. ein Server, Prozess oder ein Rechner) plötzlich und vollständig ausfällt, ohne sich vorhersehbar oder absichtlich fehlerhaft zu verhalten. Im Gegensatz zu byzantinischen Fehlern, bei denen ein Knoten unvorhersehbar oder sogar böswillig falsche Informationen sendet, verhalten sich Knoten bei Crash Faults schlicht passiv – sie antworten nicht mehr, nehmen keine Anfragen entgegen und führen keine Aktionen mehr aus. Das Verhalten eines ausgefallenen Knotens ist deterministisch: Es tut nichts mehr.

Charakteristika von Crash Faults

Ein Crash Fault ist durch folgende Eigenschaften gekennzeichnet:

Plötzlicher Ausfall: Der Knoten funktioniert bis zu einem bestimmten Zeitpunkt korrekt und stellt danach ohne Vorwarnung jegliche Aktivität ein.
Fehlende Antwort: Der betroffene Knoten antwortet nicht mehr auf Nachrichten oder führt keine Prozesse mehr aus.
Kein böswilliges Verhalten: Es findet keine aktive Irreführung anderer Knoten statt; der Knoten sendet keine falschen Informationen.
Nicht-reparativ: In der Modellierung von Crash Faults wird davon ausgegangen, dass ein einmal ausgefallener Knoten nicht automatisch wieder am Konsens teilnimmt – es sei denn, das System ist dafür explizit konzipiert.

Crash Faults gelten als einfacher zu behandeln als byzantinische Fehler, da sie sich auf eine binäre Zustandsänderung beschränken: aktiv → inaktiv.

Modellierung in verteilten Systemen

In der Theorie verteilter Systeme werden Crash Faults oft als Basismodell für Fehlertoleranz verwendet. Ein System, das f Crash Faults tolerieren kann, muss in der Lage sein, trotz des Ausfalls von f Knoten weiterhin korrekte und konsistente Ergebnisse zu liefern.

Ein typisches Beispiel ist das Crash Fault Tolerant (CFT)-Modell. Dabei gilt:

Bei einem System mit n Knoten kann ein verteiltes Protokoll f Crash Faults tolerieren, wenn n ≥ f + 1.
Für Konsensprotokolle wie Raft oder Paxos reicht diese Bedingung aus, um Sicherheit und Verfügbarkeit zu gewährleisten.

Im Gegensatz dazu benötigen byzantinisch fehlertolerante Systeme wie PBFT oder IBFT mindestens n ≥ 3f + 1 Knoten, um f byzantinische Fehler tolerieren zu können.

Beispiel: Raft und Paxos

Die bekannten Konsensprotokolle Raft und Paxos basieren auf dem CFT-Modell und setzen voraus, dass sich alle nicht-ausgefallenen Knoten korrekt verhalten. Sie können mit relativ wenigen Knoten (z. B. drei) eine Fehlertoleranz gegenüber einem Crash Fault gewährleisten. In einem Raft-Cluster mit drei Servern darf maximal ein Server ausfallen, ohne dass die Konsensbildung unterbrochen wird.

Diese Protokolle erkennen Crash Faults anhand von Zeitüberschreitungen („timeouts“). Wenn ein Knoten über einen gewissen Zeitraum nicht antwortet, wird er als ausgefallen betrachtet. Das System reagiert darauf beispielsweise durch Neuwahl eines Leaders oder durch Umverteilung von Aufgaben.

Abgrenzung zu anderen Fehlermodellen

Es ist wichtig, Crash Faults von anderen Fehlermodellen zu unterscheiden:

Byzantinische Fehler: Der Knoten kann sich beliebig und auch böswillig verhalten (z. B. widersprüchliche Nachrichten senden).
Omission Faults: Der Knoten reagiert teilweise nicht, führt aber noch gewisse Operationen aus (z. B. Sendefehler).
Timing Faults: Der Knoten reagiert zu spät oder zu früh und verletzt damit zeitliche Erwartungen.
Arbiträre Fehler: Ein übergeordnetes Modell, das Crash, Omission und byzantinisches Verhalten einschließen kann.

Crash Faults gelten als einfachste Form dieser Fehler, da sie keine Interaktion mit dem restlichen System mehr verursachen.

Ursachen für Crash Faults

Die Gründe für Crash Faults in realen Systemen können vielfältig sein, darunter:

Hardwareausfälle: z. B. defekte Prozessoren, Netzteile, Speichermodule
Netzwerkunterbrechungen: z. B. Trennung vom Netzwerk durch Switch- oder Routerfehler
Softwareabstürze: z. B. durch Programmierfehler, Speicherüberläufe oder nicht abgefangene Ausnahmen
Stromausfälle: insbesondere bei nicht redundant abgesicherten Knoten
Betriebssystemprobleme: z. B. Kernel-Panics oder Deadlocks

In der Modellierung von Crash Faults wird typischerweise angenommen, dass diese Ausfälle nicht vorhersehbar, aber in ihrer Wirkung begrenzt sind – der Knoten fällt aus, beeinflusst das System jedoch nicht aktiv weiter.

Bedeutung in Blockchain-Systemen

Auch in Blockchain-Systemen, insbesondere in privaten oder konsortiumsbasierten Netzwerken, ist die Berücksichtigung von Crash Faults wesentlich für die Auslegung der Fehlertoleranz und Netzwerkstabilität. Konsensmechanismen wie:

Raft (z. B. in Hyperledger Fabric oder Quorum)
Tendermint (im CFT-Modus)
Paxos-Varianten

sind speziell dafür konzipiert, Crash Faults effizient zu behandeln. Dabei ist zentral, dass eine Mehrheit der Knoten weiterhin verfügbar bleibt, um Entscheidungen zu treffen und neue Blöcke zu bestätigen.

Ein Beispiel: Ein Netzwerk mit 5 Validatoren im Raft-Konsens kann bis zu 2 Crash Faults tolerieren, da 3 Validatoren (Mehrheit) für die Konsensbildung erforderlich sind.

Vorteile und Grenzen von Crash-Fault-Toleranz

Vorteile:

Einfachere Implementierung: Weniger komplex als byzantinisch fehlertolerante Protokolle.
Weniger Kommunikation erforderlich: Kein Abgleich widersprüchlicher Nachrichten nötig.
Geringere Systemanforderungen: Es werden weniger Knoten benötigt, um eine bestimmte Fehlertoleranz zu erreichen.

Grenzen:

Kein Schutz vor böswilligem Verhalten: Angreifer, die bewusst falsche Informationen senden, werden nicht berücksichtigt.
Schwierigkeiten bei intermittierenden Fehlern: Crash Faults sind ein binäres Modell, das keine teilschweren Ausfälle (z. B. Netzwerklatenzen) abbildet.
Nicht geeignet für offene Netzwerke: In öffentlichen Blockchain-Netzwerken, in denen Teilnehmer nicht vertrauenswürdig sind, reicht CFT nicht aus.

Fazit

Crash Faults beschreiben ein einfaches, aber bedeutendes Fehlermodell in verteilten Systemen. Sie bilden die Grundlage für viele praktische Konsensprotokolle wie Raft oder Paxos, die in zahlreichen Anwendungen – auch in Blockchain-Technologien – zum Einsatz kommen. Während sie keine Absicherung gegen absichtliches Fehlverhalten bieten, ermöglichen sie eine robuste Fehlertoleranz in kontrollierten, vertrauensbasierten Umgebungen. Für viele unternehmensinterne oder konsortiumsbasierte Systeme stellen Crash-Fault-Toleranzmodelle eine effektive und ressourcenschonende Lösung dar.