Sehr geehrte Damen und Herren,
hiermit möchten wir Sie über den aktuellen Stand der Analyse zur Störung vom 12.04.2024 im Bereich der DMRZ VMWare Cloud Netzwerkinfrastruktur in FRA2 informieren.
Aktuelle Lage:
• Infrastruktursysteme: stabil
• Die Fehlerursache konnte gefunden werden und weitere Maßnahmen wurden eingeleitet.
Ursache und Auswirkungen:
• Einer der redundanten T0 Router innerhalb der Netzwerk-Virtualisierung in FRA2 loggte in den frühen Morgenstunden einen internen Applikationsfehler.
• Aufgrund dieses Fehlers kam es zu einem Failover bei dem die Redundanz der Systeme nicht vollständig funktioniert hat. Dies führte zu einer Störungen der Netzwerkkonnektivität nach extern. Die Verbindung zwischen VMs des gleichen Tenants war nicht betroffen.
Eingeleitete Maßnahmen:
• das Monitoring meldete für mehrere Kunden eine Störung der Netzwerkkonnektivität in FRA2.
• Nach einer ersten Untersuchung wurde das Thema eskaliert.
• Der geloggte Applikationsfehler wurde untersucht und aus dem Failover resultierenden Fehler in der Netzwerkkonnektivität konnten auf die T0 Router zurückgeführt werden.
• Gegen 8:45 Uhr war der Neustart beider T0 Router abgeschlossen und es konnte kein Fehler im T0 Umfeld mehr festgestellt werden.
• Logs wurden gesammelt und dem Hersteller zur weiteren Analyse zur Verfügung gestellt.
Fazit und nächste Schritte:
• Die Netzwerkinfrastruktur ist stabil.
• Eine tiefgehende Analyse des Fehlers wurde über ein Ticket beim Hersteller eingereicht und eskaliert, da es sich hier um ein Fehlverhalten der konfigurierten Redundanz der Systeme handelte.
Für alle entstandenen Unannehmlichkeiten bitten wir Sie vielmals um Entschuldigung.
Vielen Dank für Ihr Verständnis.
DMRZ