Hintergrundinformationen zum Austausch des Kernnetzwerks

Wartungsarbeiten,Service,Systemstatus

Der Austausch des Kernnetzwerks ist mehr als überfällig, da der Betrieb des alten Netzwerks das Risiko von defekten älteren Komponenten (die auch Out-of-Service gehen) erheblich erhöht. Hinzu kommt, dass das alte Kernnetz bzgl. der Vorbereitungen für den Umzug in den URZ-Neubau erheblich an die Leistungsgrenzen gestoßen ist.

Dieser Umbau des Kernnetzwerks war mit dem Bezug des Neubaus des URZs langfristig geplant und wäre bei planmäßigem Umzug vor mehr als einem Jahr auch technisch unkritisch gewesen. Durch die Bauverzögerungen wurden der Kernnetzumbau und der Firewallaustausch so lange wie technisch möglich verschoben. Aufgrund des Bauverzuges musste improvisiert werden, mit der Hoffnung, dass der Neubau doch noch nutzbar werden würde. Um dann aber eben nicht zu viele kritische Probleme auflaufen zu lassen, war dieses Zeitfenster Anfang 2021 aufgebraucht, nicht zuletzt wegen der endgültigen Out-of-Support Zeiten.

Für die Terminplanung musste die Verfügbarkeit mehrerer externer Fachfirmen berücksichtigt werden. Wegen der Beschränkungen infolge der Covid19 Pandemie war kein Terminspielraum mehr verfügbar, so dass nur die jetzigen zwei Wochen für den Kernnetzumbau zur Verfügung standen. In der kommenden Woche muss die zentrale Firewall ausgetauscht werden.

Der Netzwerkumbau wurde derart geplant, dass nur minimale Auswirkungen für die Nutzer zu erwarten waren. Hinweise, dass lokale Switche evtl. einmalig 60 Sekunden ausfallen, haben nur geringe Auswirkungen auf die Nutzer, da die zentralen Systeme, wie Jitsi, Moodle, BBB, Groupware, nicht betroffen sind.

Globales Netzwerkproblem am 28.01. und 29.01.2021:

Am Nachmittag des 28.01.2021 kam es zu einem unvorhersehbaren globalen Datennetzausfall beim Tausch einer defekten Access-Switch in einem Institut. Zur Behebung des globalen Netzausfalls wurde der Datennetzbereich Loeffler-Straße vom Datennetz getrennt.

Der Austausch von Access-Switchen ist Alltagsgeschäft und nicht Bestandteil der Kernnetzerneuerung. In der Einrichtung ist ein Stack aus 3 Switchen komplett defekt gewesen, was sehr selten ist, aber vorkommt. Da keine 3 Ersatz-Switche vom gleichen (alten) Typ vorrätig waren, mussten 3 Switche eines neuen Typs eingebaut werden, der bereits im URZ-Neubau seit über 2 Monaten problemlos im Einsatz ist. Aus welchen Gründen der Einsatz der neuen Switche zu Problemen führt, ist noch unklar.

Nach mehrstündigen Analysen in Zusammenarbeit mit End-Level-Support-Mitarbeitern des Herstellers und der Servicefirma schien es so, als ob das Problem um 20:45 Uhr identifiziert worden sei. Daraufhin wurde der Datennetzbereich Loeffler-Straße wieder zugeschaltet. Es wurde vermutet, dass Algorithmen zur Pfadberechnung diese Probleme verursachten. Bisher wurde das Verfahren "Rapid Per VLAN Spanning Tree" verwendet. Offensichtlich gab es bei unserem Kernnetzwerkhersteller mit der Umstellung auf das neue Betriebssystem eine (undokumentierte) Limiteinführung auf 64 VLANs. Dieses Limit war die vermutete Ursache der Netzwerkprobleme.

Die erhoffte Lösung des Problems bestand darin, den Algorithmus zu ändern, was das URZ noch am gleichen Tag bis 21:30 Uhr umgesetzt hat.

Daher wurde die ausgetauschte Access-Switch am 29.01.2021 gegen 8:30 Uhr wieder an das Netz angeschlossen. Jedoch stellte sich heraus, dass das Problem nicht im verwendeten Algorithmus zur Pfadberechnung lag, in der Folge fiel das gesamte Datennetz erneut aus. Diese Störung konnte leider erst gegen 10:40 Uhr behoben werden.

Das URZ hat darauf hin am 29.01.2021 bis in den späten Abend hinein zusammen mit End-Level-Support-Mitarbeitern des Kernnetzherstellers das Problem weiter analysiert. Dabei konnte festgestellt werden, dass die Access-Switch nach deren Anschluss sofort beginnt, das Datennetz zu fluten. Dies führt dazu, dass sich eine sogenannte "Traffic-Wave" im Kernnetz ausbreitet und nur durch sehr gezielte Eingriffe gebrochen werden kann. Daraufhin wurden diverse andere Access-Switche vom Netz getrennt und wieder verbunden. An diesen konnte das Problem jedoch nicht nachgestellt werden, welches bisher nur bei dieser einen Switch auftritt.

Daher wird das URZ nun versuchen, kurzfristig eine andere Access-Switch für die betroffene Einrichtung zu organisieren. Die problematische Switch wird zurzeit unter Laborbedingungen weiter untersucht, da immer noch nicht klar ist, womit die Switch das Kernnetz flutet und warum sie dies tut. Sollte eine Nachstellung des Problems unter Laborbedingungen nicht möglich sein, muss evtl. eine weitere Analyse am produktiven Kernnetz erfolgen, da zukünftig diese Art von Access-Switchen eingesetzt werden müssen, da die anderen Out-Of-Sale gehen. Insofern muss das Problem vollständig verstanden und Lösungen identifiziert werden, da sonst das Risiko für das Gesamtnetzwerk zu hoch ist, dass sich so ein Vorfall wiederholen kann.

DHCP-Problem am 01.02.2021:

Als Folgeproblem hat sich leider am Montag, dem 01.02.2021 bei internen Nutzern ein Problem bei der Zuweisung der DHCP-Adressen ergeben, welches durch einen Komponententausch gegen 9:15 Uhr gelöst werden konnte.

Netzausfall am 24.02.2021:

Am 24.02.2021 ist es erneut zu einem totalen Netzausfall gekommen.

Der Hersteller hat das Problem nach den ersten beiden Ausfällen analysiert und die Ursache gefunden. Ein Fix ist in Arbeit und sollte in Kürze zur Verfügung stehen.

Da sowohl das URZ als auch der Hersteller davon ausgegangen sind, dass der Auslöser eine Inbetriebnahme von Switchen ist, ist die Fixbereitstellung nicht absolut dringlich gewesen.

Nun jedoch gab es kein nachvollziehbares auslösendes Ereignis. Daher hat das URZ das Problem beim Hersteller massiv eskaliert. Als Notmaßnahme hat das URZ im Datennetz alle redundanten Verbindungen abgeschaltet. Auf diese Weise kann es zu keiner "Traffic Wave" kommen. Das URZ ist sich der Gefahr singulärer Verbindungen bewusst, jedoch ist die Gefahr erneuter "Traffic Waves" als wesentlich gravierender einzustufen.


Zurück zu allen Meldungen