Clear the Sky – Technische Panne bei Skyguide

Ein Fluglotse bei der Arbeit im Tower

Am Mittwochmorgen 15. Juni 2022 führte ein technischer Defekt bei der Schweizer Flugsicherung Skyguide dazu, dass die Schweiz ihren gesamten Luftraum sperren musste. Um 4.4o Uhr hiess es: „Clear the Sky“.  Nichts ging mehr. An den grossen Flughäfen Zürich und Genf konnten keine Flugzeuge mehr starten und landen, auch der Überflugverkehr wurde umgeleitet. Glücklicherweise gab es keine Unfälle.
Wir beschäftigen uns in diesem Beitrag mit der Ursache dieses historischen Debakels und der Frage, inwieweit das Jahr 2038 Problem (Y2K38 Bug) eine ähnliche Situation provozieren könnte.

Kein Cyberangriff – eine technische Panne

Ein befürchteter Cyberangriff konnte schnell ausgeschlossen werden. Skyguide meldete einen „Netzwerkfehler“ im Skyguide-Rechenzentrum in Genf. Und wegen des Netzwerks hat auch das zweite Skyguide-Zentrum in Dübendorf den Betrieb nicht überbrücken können. Genauer gesagt fiel offenbar ein sogenannter Switch, ein Netzwerkknoten, der Daten weiterleitet, aus. Und aus bisher nicht geklärten Gründen hat die Notlösung nicht funktioniert: Der Back-up-Switch. Er übernimmt eigentlich in solchen Fällen automatisch.

Clear the Sky – Warum ist ein solches Szenario auch 2038 denkbar?

Neben der wahrscheinlich zufälligen Tatsache, dass der Fehler auch um ca. 4 Uhr morgens auftrat, gibt es weitere parallelen. Auf den betroffenen Netzwerkkomponenten läuft meist ein sogenanntes Network Operating System (NOS), welches je nach Hersteller auf einem anderen Betriebssystem basiert. Bei Cisco ist das MontaVista und QNX, bei Dell und Ericson NetBSD, die NOS bei HPE und Lenovo sind Yocto basiert und Alcatel-Lucent verwendet VxWorks. Was diesen Beispielen allen gemeinsam ist: Es sind Unix basierte Betriebssyteme. Da die Zeit für den Netzwerkverkehr fundamental ist, wird mit grosser Sicherheit auf diesen Komponenten auch die Unixzeit verwendet. Das Jahr 2038 Problem kann also durchaus für solche „Netzwerkfehler“ ursächlich sein.

Das Back-up System hat versagt und wird versagen

Bei hochverfügbaren Systemen muss darauf geachtet werden, dass alle Komponenten eines Systems redundant (mehrfach) ausgelegt sind. Hierbei kommen Systeme unterschiedlichen Aufbaues (beispielsweise verschiedener Hersteller) für die gleiche Aufgabe zum Einsatz. Damit wird ein gleichzeitiger Ausfall mehrerer Systeme aus einem einzelnen Grund unwahrscheinlicher. Hier hat Skyguide offenbar versagt.
Auch er Y2k38 Bug könnte ein sogenannter Single Point of Failure (SPOF) sein. Weil die meisten Netzwerkkomponenten die Unixzeit verwenden, könnten mehrere oder sogar alle Switch gleichzeitig ihren Dienst quittieren. Das würde zu einem kompletten Versagen des gesamten Systems führen, wie gerade bei Skyguide erlebt.

Probiert es aus…

Leider hatten wir gerade keinen aktuellen Netzwerk-Switch, welcher in Rechenzentren eingesetzt wird, zur Hand. Also können wir unsere These nicht in der Praxis überprüfen, wie wir das bei den Fernsehgeräten gemacht haben. Aber falls jemand glaubt bei seinem Switch passiert nichts… probierts aus!

Für BEOZ Association sind die aktuellen Ereignisse jedenfalls Grund genug, um die Flugsicherung in Hinblick auf das Jahr 2038 nicht auf die leichte Schulter zu nehmen.

Nach oben scrollen