Computerhaus Quickborn

So gefährden Netzwerkfehler den Betrieb von Rechenzentren​

Die Zuverlässigkeit von Rechenzentren gefährden vor allem drei Ursachen: Stromausfälle, Netzprobleme sowie menschliche Fehler. Maximumm – shutterstock.com Stromausfälle sind nach wie vor die häufigste Ursache für größere Ausfälle in Rechenzentren. Sie machen mehr als die Hälfte aller Fälle aus, die das Uptime Institute in seinem „Annual Outage Analysis Report 2025“ erfasst hat. Netzwerk- und IT-Systemprobleme waren dagegen für zwölf beziehungsweise elf Prozent der schwerwiegenden Ausfälle in Rechenzentren verantwortlich. Dabei machten dem Bericht zufolge Netzwerk-/Konnektivitätsprobleme 30 Prozent der End-to-End-Ausfälle von IT-Diensten aus. Methodik Uptime führte die Analyse anhand aktueller Daten aus mehreren eigenen Berichten und Umfragen aus den Jahren 2024 und 2025 durch. Ein Vergleich mit den Vorjahren zeigt, dass die Häufigkeit von Ausfällen zurückgeht. So gaben in einer Umfrage aus dem Jahr 2024 etwas über 50 Prozent der Betreiber an, in den letzten drei Jahren einen Ausfall gehabt zu haben. Im Jahr 2023 waren es noch 55 Prozent, die einen Ausfall meldeten. Im Jahr 2022 gaben 60 Prozent Ausfälle an, 2021 waren es 69 Prozent. Fast 80 Prozent meldeten im Jahr 2020 einen Ausfall in den letzten drei Jahren. Energieversorgung als Sorgenkind „Insgesamt hat sich der Zahl der Ausfälle verringert“, analysiert Andy Lawrence, Gründungsmitglied und Geschäftsführer von Uptime Intelligence, die Situation. Anlass zur Entwarnung ist das allerdings nicht, wie Lawrence anlässlich der Veröffentlichung des aktuellen Reports erklärte: „Die Betreiber von Rechenzentren sehen sich einer wachsenden Zahl externer Risiken gegenüber, die außerhalb ihrer Kontrolle liegen.“ Dazu zählen für ihn Einschränkungen des Stromnetzes, extreme Wetterbedingungen, Ausfälle von Netzbetreibern und Probleme mit Software von Drittanbietern. Dabei ist die Stromversorgung nach wie vor die häufigste Ursache für schwerwiegende Ausfälle. Zu den Gründen für Stromausfälle zählen: Ausfall der USV: 42 Prozent, Ausfall eines Umschalters: 36 Prozent, Ausfall eines Generators: 28 Prozent, Ausfall eines Umschalters zwischen verschiedenen Leitungen: 23 Prozent, Ausfall der Steuerungen: 15 Prozent, Ausfall eines einzelnen kabelgebundenen IT-Geräts: 11 Prozent, Ausfall deines Stromverteilers: 11 Prozent. Strom bleibt kritisch “Strom ist die Hauptursache. Strom wird auch in absehbarer Zukunft die Hauptursache sein“, prognostiziert Chris Brown, Chief Technical Officer beim Uptime Institute. Und das ist zu erwarten, denn jedes Gerät im Rechenzentrum, egal, ob es sich um eine Anlage oder ein IT-Gerät handelt, benötigt Strom, um zu funktionieren. Positiv zu vermerken ist jedoch, dass es Anzeichen dafür gibt, dass die Schwere der Ausfälle abnimmt. Laut Uptime wurden 2024 nur neun Prozent der gemeldeten Vorfälle als schwerwiegend oder kritisch eingestuft. „Etwas mehr als die Hälfte gab an, in den letzten drei Jahren einen Ausfall gehabt zu haben, und von denen, die dies bejahten, waren insgesamt etwa drei Viertel nicht signifikant“, ergänzt Lawrence. Das Netz als Problemursache Dennoch nahmen laut Uptime Institute die IT- und Netzwerkprobleme im Jahr 2024 zu. Der Report führt den Anstieg der Ausfälle auf die zunehmende Komplexität der IT sowie der Netzwerke zurück. Dies gelte insbesondere für das Änderungsmanagement und Fehlkonfigurationen. „Insbesondere bei verteilten Diensten und Cloud-Diensten stellen wir fest, dass es häufig zu Kettenausfällen kommt, wenn Netzwerkgeräte über ein gesamtes Netzwerk repliziert werden“, geht Lawrence ins Detail, „manchmal führt der Ausfall eines Geräts dazu, dass der Datenverkehr nur in eine Richtung fließt und die Kapazität eines anderen Rechenzentrums überlastet wird.“ Häufige Netzfehler Als häufigste Ursachen für größere, netzwerkbezogene Ausfälle nennt das Uptime Institute: Konfigurations- und Änderungsmanagementfehler: 50 Prozent, Ausfall eines Drittanbieters: 34 Prozent, Hardwarefehler: 31 Prozent, Firmware- und Softwarefehler: 26 Prozent, Leitungsunterbrechungen: 17 Prozent, Böswillige Cyberangriffe: 17 Prozent, Netzwerküberlastung: 13 Prozent, Probleme mit beschädigten Firewall- und Routing-Tabellen: acht Prozent, Wetterbedingte Vorfälle: sieben Prozent. Laut der Analyse von Uptime zählen menschliche Fehler weiterhin zu den „größten Herausforderungen im Rechenzentrumsbetrieb“. Hauptproblem dabei ist dem Bericht zufolge, dass die Mitarbeiter der Rechenzentren die festgelegten Verfahren nicht einhalten. Im Vergleich zu 2023 habe dies um etwa zehn Prozentpunkte zugenommen. Der Faktor Mensch als Fehler Die häufigsten Ursachen für größere Ausfälle aufgrund menschlicher Fehler waren: Nichtbefolgung von Verfahren durch Datenpersonal: 58 Prozent, Falsche Prozesse/Verfahren des Personals: 45 Prozent, Installationsprobleme: 24 Prozent, Probleme während des Betriebs: 19 Prozent, Zu wenig Personal: 18 Prozent, Probleme mit der Häufigkeit der vorbeugenden Wartung: 16 Prozent, Designfehler oder Mängel des Rechenzentrums: 14 Prozent. Cheftechniker Brown erklärt diese Fehler unter anderem damit, dass die Betreiber von Rechenzentren Schwierigkeiten haben, adäquate Prozesse zu erstellen und angemessene Schulungen anzubieten. Erschwert werde die Situation durch die Geschwindigkeit, mit der Rechenzentren expandierten. Zudem hätten neue Mitarbeiter nur begrenzte Erfahrung. Die Uptime-Analysten kommen deshalb zu dem Schluss, dass menschliches Versagen der Bereich ist, in dem sich Ausfälle am einfachsten und kostengünstigsten vermeiden lassen. 

So gefährden Netzwerkfehler den Betrieb von Rechenzentren​ Die Zuverlässigkeit von Rechenzentren gefährden vor allem drei Ursachen: Stromausfälle, Netzprobleme sowie menschliche Fehler. Maximumm – shutterstock.com Stromausfälle sind nach wie vor die häufigste Ursache für größere Ausfälle in Rechenzentren. Sie machen mehr als die Hälfte aller Fälle aus, die das Uptime Institute in seinem „Annual Outage Analysis Report 2025“ erfasst hat. Netzwerk- und IT-Systemprobleme waren dagegen für zwölf beziehungsweise elf Prozent der schwerwiegenden Ausfälle in Rechenzentren verantwortlich. Dabei machten dem Bericht zufolge Netzwerk-/Konnektivitätsprobleme 30 Prozent der End-to-End-Ausfälle von IT-Diensten aus. Methodik Uptime führte die Analyse anhand aktueller Daten aus mehreren eigenen Berichten und Umfragen aus den Jahren 2024 und 2025 durch. Ein Vergleich mit den Vorjahren zeigt, dass die Häufigkeit von Ausfällen zurückgeht. So gaben in einer Umfrage aus dem Jahr 2024 etwas über 50 Prozent der Betreiber an, in den letzten drei Jahren einen Ausfall gehabt zu haben. Im Jahr 2023 waren es noch 55 Prozent, die einen Ausfall meldeten. Im Jahr 2022 gaben 60 Prozent Ausfälle an, 2021 waren es 69 Prozent. Fast 80 Prozent meldeten im Jahr 2020 einen Ausfall in den letzten drei Jahren. Energieversorgung als Sorgenkind „Insgesamt hat sich der Zahl der Ausfälle verringert“, analysiert Andy Lawrence, Gründungsmitglied und Geschäftsführer von Uptime Intelligence, die Situation. Anlass zur Entwarnung ist das allerdings nicht, wie Lawrence anlässlich der Veröffentlichung des aktuellen Reports erklärte: „Die Betreiber von Rechenzentren sehen sich einer wachsenden Zahl externer Risiken gegenüber, die außerhalb ihrer Kontrolle liegen.“ Dazu zählen für ihn Einschränkungen des Stromnetzes, extreme Wetterbedingungen, Ausfälle von Netzbetreibern und Probleme mit Software von Drittanbietern. Dabei ist die Stromversorgung nach wie vor die häufigste Ursache für schwerwiegende Ausfälle. Zu den Gründen für Stromausfälle zählen: Ausfall der USV: 42 Prozent, Ausfall eines Umschalters: 36 Prozent, Ausfall eines Generators: 28 Prozent, Ausfall eines Umschalters zwischen verschiedenen Leitungen: 23 Prozent, Ausfall der Steuerungen: 15 Prozent, Ausfall eines einzelnen kabelgebundenen IT-Geräts: 11 Prozent, Ausfall deines Stromverteilers: 11 Prozent. Strom bleibt kritisch “Strom ist die Hauptursache. Strom wird auch in absehbarer Zukunft die Hauptursache sein“, prognostiziert Chris Brown, Chief Technical Officer beim Uptime Institute. Und das ist zu erwarten, denn jedes Gerät im Rechenzentrum, egal, ob es sich um eine Anlage oder ein IT-Gerät handelt, benötigt Strom, um zu funktionieren. Positiv zu vermerken ist jedoch, dass es Anzeichen dafür gibt, dass die Schwere der Ausfälle abnimmt. Laut Uptime wurden 2024 nur neun Prozent der gemeldeten Vorfälle als schwerwiegend oder kritisch eingestuft. „Etwas mehr als die Hälfte gab an, in den letzten drei Jahren einen Ausfall gehabt zu haben, und von denen, die dies bejahten, waren insgesamt etwa drei Viertel nicht signifikant“, ergänzt Lawrence. Das Netz als Problemursache Dennoch nahmen laut Uptime Institute die IT- und Netzwerkprobleme im Jahr 2024 zu. Der Report führt den Anstieg der Ausfälle auf die zunehmende Komplexität der IT sowie der Netzwerke zurück. Dies gelte insbesondere für das Änderungsmanagement und Fehlkonfigurationen. „Insbesondere bei verteilten Diensten und Cloud-Diensten stellen wir fest, dass es häufig zu Kettenausfällen kommt, wenn Netzwerkgeräte über ein gesamtes Netzwerk repliziert werden“, geht Lawrence ins Detail, „manchmal führt der Ausfall eines Geräts dazu, dass der Datenverkehr nur in eine Richtung fließt und die Kapazität eines anderen Rechenzentrums überlastet wird.“ Häufige Netzfehler Als häufigste Ursachen für größere, netzwerkbezogene Ausfälle nennt das Uptime Institute: Konfigurations- und Änderungsmanagementfehler: 50 Prozent, Ausfall eines Drittanbieters: 34 Prozent, Hardwarefehler: 31 Prozent, Firmware- und Softwarefehler: 26 Prozent, Leitungsunterbrechungen: 17 Prozent, Böswillige Cyberangriffe: 17 Prozent, Netzwerküberlastung: 13 Prozent, Probleme mit beschädigten Firewall- und Routing-Tabellen: acht Prozent, Wetterbedingte Vorfälle: sieben Prozent. Laut der Analyse von Uptime zählen menschliche Fehler weiterhin zu den „größten Herausforderungen im Rechenzentrumsbetrieb“. Hauptproblem dabei ist dem Bericht zufolge, dass die Mitarbeiter der Rechenzentren die festgelegten Verfahren nicht einhalten. Im Vergleich zu 2023 habe dies um etwa zehn Prozentpunkte zugenommen. Der Faktor Mensch als Fehler Die häufigsten Ursachen für größere Ausfälle aufgrund menschlicher Fehler waren: Nichtbefolgung von Verfahren durch Datenpersonal: 58 Prozent, Falsche Prozesse/Verfahren des Personals: 45 Prozent, Installationsprobleme: 24 Prozent, Probleme während des Betriebs: 19 Prozent, Zu wenig Personal: 18 Prozent, Probleme mit der Häufigkeit der vorbeugenden Wartung: 16 Prozent, Designfehler oder Mängel des Rechenzentrums: 14 Prozent. Cheftechniker Brown erklärt diese Fehler unter anderem damit, dass die Betreiber von Rechenzentren Schwierigkeiten haben, adäquate Prozesse zu erstellen und angemessene Schulungen anzubieten. Erschwert werde die Situation durch die Geschwindigkeit, mit der Rechenzentren expandierten. Zudem hätten neue Mitarbeiter nur begrenzte Erfahrung. Die Uptime-Analysten kommen deshalb zu dem Schluss, dass menschliches Versagen der Bereich ist, in dem sich Ausfälle am einfachsten und kostengünstigsten vermeiden lassen.

Die Zuverlässigkeit von Rechenzentren gefährden vor allem drei Ursachen: Stromausfälle, Netzprobleme sowie menschliche Fehler. Maximumm – shutterstock.com Stromausfälle sind nach wie vor die häufigste Ursache für größere Ausfälle in Rechenzentren. Sie machen mehr als die Hälfte aller Fälle aus, die das Uptime Institute in seinem „Annual Outage Analysis Report 2025“ erfasst hat. Netzwerk- und IT-Systemprobleme waren dagegen für zwölf beziehungsweise elf Prozent der schwerwiegenden Ausfälle in Rechenzentren verantwortlich. Dabei machten dem Bericht zufolge Netzwerk-/Konnektivitätsprobleme 30 Prozent der End-to-End-Ausfälle von IT-Diensten aus. Methodik Uptime führte die Analyse anhand aktueller Daten aus mehreren eigenen Berichten und Umfragen aus den Jahren 2024 und 2025 durch. Ein Vergleich mit den Vorjahren zeigt, dass die Häufigkeit von Ausfällen zurückgeht. So gaben in einer Umfrage aus dem Jahr 2024 etwas über 50 Prozent der Betreiber an, in den letzten drei Jahren einen Ausfall gehabt zu haben. Im Jahr 2023 waren es noch 55 Prozent, die einen Ausfall meldeten. Im Jahr 2022 gaben 60 Prozent Ausfälle an, 2021 waren es 69 Prozent. Fast 80 Prozent meldeten im Jahr 2020 einen Ausfall in den letzten drei Jahren. Energieversorgung als Sorgenkind „Insgesamt hat sich der Zahl der Ausfälle verringert“, analysiert Andy Lawrence, Gründungsmitglied und Geschäftsführer von Uptime Intelligence, die Situation. Anlass zur Entwarnung ist das allerdings nicht, wie Lawrence anlässlich der Veröffentlichung des aktuellen Reports erklärte: „Die Betreiber von Rechenzentren sehen sich einer wachsenden Zahl externer Risiken gegenüber, die außerhalb ihrer Kontrolle liegen.“ Dazu zählen für ihn Einschränkungen des Stromnetzes, extreme Wetterbedingungen, Ausfälle von Netzbetreibern und Probleme mit Software von Drittanbietern. Dabei ist die Stromversorgung nach wie vor die häufigste Ursache für schwerwiegende Ausfälle. Zu den Gründen für Stromausfälle zählen: Ausfall der USV: 42 Prozent, Ausfall eines Umschalters: 36 Prozent, Ausfall eines Generators: 28 Prozent, Ausfall eines Umschalters zwischen verschiedenen Leitungen: 23 Prozent, Ausfall der Steuerungen: 15 Prozent, Ausfall eines einzelnen kabelgebundenen IT-Geräts: 11 Prozent, Ausfall deines Stromverteilers: 11 Prozent. Strom bleibt kritisch “Strom ist die Hauptursache. Strom wird auch in absehbarer Zukunft die Hauptursache sein“, prognostiziert Chris Brown, Chief Technical Officer beim Uptime Institute. Und das ist zu erwarten, denn jedes Gerät im Rechenzentrum, egal, ob es sich um eine Anlage oder ein IT-Gerät handelt, benötigt Strom, um zu funktionieren. Positiv zu vermerken ist jedoch, dass es Anzeichen dafür gibt, dass die Schwere der Ausfälle abnimmt. Laut Uptime wurden 2024 nur neun Prozent der gemeldeten Vorfälle als schwerwiegend oder kritisch eingestuft. „Etwas mehr als die Hälfte gab an, in den letzten drei Jahren einen Ausfall gehabt zu haben, und von denen, die dies bejahten, waren insgesamt etwa drei Viertel nicht signifikant“, ergänzt Lawrence. Das Netz als Problemursache Dennoch nahmen laut Uptime Institute die IT- und Netzwerkprobleme im Jahr 2024 zu. Der Report führt den Anstieg der Ausfälle auf die zunehmende Komplexität der IT sowie der Netzwerke zurück. Dies gelte insbesondere für das Änderungsmanagement und Fehlkonfigurationen. „Insbesondere bei verteilten Diensten und Cloud-Diensten stellen wir fest, dass es häufig zu Kettenausfällen kommt, wenn Netzwerkgeräte über ein gesamtes Netzwerk repliziert werden“, geht Lawrence ins Detail, „manchmal führt der Ausfall eines Geräts dazu, dass der Datenverkehr nur in eine Richtung fließt und die Kapazität eines anderen Rechenzentrums überlastet wird.“ Häufige Netzfehler Als häufigste Ursachen für größere, netzwerkbezogene Ausfälle nennt das Uptime Institute: Konfigurations- und Änderungsmanagementfehler: 50 Prozent, Ausfall eines Drittanbieters: 34 Prozent, Hardwarefehler: 31 Prozent, Firmware- und Softwarefehler: 26 Prozent, Leitungsunterbrechungen: 17 Prozent, Böswillige Cyberangriffe: 17 Prozent, Netzwerküberlastung: 13 Prozent, Probleme mit beschädigten Firewall- und Routing-Tabellen: acht Prozent, Wetterbedingte Vorfälle: sieben Prozent. Laut der Analyse von Uptime zählen menschliche Fehler weiterhin zu den „größten Herausforderungen im Rechenzentrumsbetrieb“. Hauptproblem dabei ist dem Bericht zufolge, dass die Mitarbeiter der Rechenzentren die festgelegten Verfahren nicht einhalten. Im Vergleich zu 2023 habe dies um etwa zehn Prozentpunkte zugenommen. Der Faktor Mensch als Fehler Die häufigsten Ursachen für größere Ausfälle aufgrund menschlicher Fehler waren: Nichtbefolgung von Verfahren durch Datenpersonal: 58 Prozent, Falsche Prozesse/Verfahren des Personals: 45 Prozent, Installationsprobleme: 24 Prozent, Probleme während des Betriebs: 19 Prozent, Zu wenig Personal: 18 Prozent, Probleme mit der Häufigkeit der vorbeugenden Wartung: 16 Prozent, Designfehler oder Mängel des Rechenzentrums: 14 Prozent. Cheftechniker Brown erklärt diese Fehler unter anderem damit, dass die Betreiber von Rechenzentren Schwierigkeiten haben, adäquate Prozesse zu erstellen und angemessene Schulungen anzubieten. Erschwert werde die Situation durch die Geschwindigkeit, mit der Rechenzentren expandierten. Zudem hätten neue Mitarbeiter nur begrenzte Erfahrung. Die Uptime-Analysten kommen deshalb zu dem Schluss, dass menschliches Versagen der Bereich ist, in dem sich Ausfälle am einfachsten und kostengünstigsten vermeiden lassen. 

Nach oben scrollen
×