Netzwerkstörung DMRZ VMWare Cloud
Postmortem

Sehr geehrte Damen und Herren,

hiermit möchten wir Sie über den aktuellen Stand der Analyse zur Störung vom 12.04.2024 im Bereich der DMRZ VMWare Cloud Netzwerkinfrastruktur in FRA2 informieren.

Aktuelle Lage:
• Infrastruktursysteme: stabil
• Die Fehlerursache konnte gefunden werden und weitere Maßnahmen wurden eingeleitet.

Ursache und Auswirkungen:
• Einer der redundanten T0 Router innerhalb der Netzwerk-Virtualisierung in FRA2 loggte in den frühen Morgenstunden einen internen Applikationsfehler.
• Aufgrund dieses Fehlers kam es zu einem Failover bei dem die Redundanz der Systeme nicht vollständig funktioniert hat. Dies führte zu einer Störungen der Netzwerkkonnektivität nach extern. Die Verbindung zwischen VMs des gleichen Tenants war nicht betroffen.

Eingeleitete Maßnahmen:
• das Monitoring meldete für mehrere Kunden eine Störung der Netzwerkkonnektivität in FRA2.
• Nach einer ersten Untersuchung wurde das Thema eskaliert.
• Der geloggte Applikationsfehler wurde untersucht und aus dem Failover resultierenden Fehler in der Netzwerkkonnektivität konnten auf die T0 Router zurückgeführt werden.
• Gegen 8:45 Uhr war der Neustart beider T0 Router abgeschlossen und es konnte kein Fehler im T0 Umfeld mehr festgestellt werden.
• Logs wurden gesammelt und dem Hersteller zur weiteren Analyse zur Verfügung gestellt.

Fazit und nächste Schritte:
• Die Netzwerkinfrastruktur ist stabil.
• Eine tiefgehende Analyse des Fehlers wurde über ein Ticket beim Hersteller eingereicht und eskaliert, da es sich hier um ein Fehlverhalten der konfigurierten Redundanz der Systeme handelte.

Für alle entstandenen Unannehmlichkeiten bitten wir Sie vielmals um Entschuldigung.

Vielen Dank für Ihr Verständnis.

DMRZ

Posted Apr 18, 2024 - 12:13 CEST

Resolved
Die Störung wurde identifiziert und behoben.
Sollten Sie in diesem Zusammenhang noch Probleme auftreten, bitten wir um Info.

Nachbearbeitung und Information zur Störung folgen.
Posted Apr 12, 2024 - 09:01 CEST
Investigating
Aktuell liegt eine Störung im Bereich Netzwerk vor.

Das Problem ist mit Hochdruck in Bearbeitung und wir informieren umgehend erneut.
Posted Apr 12, 2024 - 08:07 CEST
This incident affected: Datacenter Infrastructure / Cloud Services.