Panne majeure chez Cloudflare : comprendre l’incident qui a paralysé une partie d’Internet
Le 18 novembre 2025, une panne mondiale chez Cloudflare a brièvement déstabilisé une part significative d’Internet…
🌐 Une panne qui a révélé la dépendance du web à Cloudflare
Le 18 novembre 2025, aux alentours de 11h20 UTC, une panne majeure chez Cloudflare a provoqué une série massive d’erreurs 5xx sur des milliers de sites web à travers le monde. Des plateformes très visibles comme ChatGPT, X (Twitter), New Jersey Transit, des sites de e-commerce et plusieurs services SaaS ont été inaccessibles pendant une durée variable.
La raison est simple : Cloudflare est un acteur central de l’Internet moderne, fournissant CDN, DNS, proxy inverse, anti-DDoS et services de sécurité à près d’un tiers du web mondial. Lorsque son réseau rencontre un problème, les effets se propagent très largement.
❌ Pas de cyberattaque : l’origine est interne
Cloudflare a rapidement clarifié la situation :
- Aucune cyberattaque n’était en cours.
Le problème provenait d’un composant interne lié au système Bot Management. Une modification de permissions dans une base de données interne a provoqué la génération d’un fichier de configuration inhabituellement volumineux.
Ce “feature file”, distribué sur de nombreux nœuds du réseau, était deux fois plus gros que prévu. Les logiciels chargés de le traiter comportaient une limite de taille codée en dur. Une fois dépassée, les modules concernés entraient en erreur et renvoyaient des statuts 5xx, ce qui donnait l’impression d’une panne globale.
Ce fichier ayant été propagé à plusieurs segments du réseau en quelques minutes, l’incident a pris une ampleur mondiale.
⚙️ Comment une simple erreur a provoqué une panne mondiale
Cette panne illustre une réalité technique : dans des architectures distribuées comme celle de Cloudflare, une configuration incorrecte peut rapidement se répandre et provoquer des effets de cascade.
Les éléments clés de la défaillance :
- une mauvaise permission dans une base interne ;
- un fichier de configuration généré avec trop d’entrées ;
- une limite interne du logiciel de gestion des bots dépassée ;
- une propagation rapide de la mauvaise configuration ;
- des nœuds incapables de router correctement le trafic.
Une fois la cause isolée, Cloudflare a cessé la distribution du mauvais fichier, restauré une version saine et redéployé progressivement ses systèmes. Le trafic normal est revenu dans l’après-midi.
📉 Un impact mondial visible
De nombreux services publics, privés et critiques ont été touchés :
- ChatGPT (OpenAI)
- X (ancien Twitter)
- Des réseaux de transport
- Des plateformes de e-commerce
- Des API SaaS cruciales
- Des milliers de sites web institutionnels
Cet incident démontre à quel point l’Internet est aujourd’hui centralisé autour de quelques infrastructures essentielles.
🏗️ Les objectifs et mesures correctives annoncés par Cloudflare
Dans son billet post-mortem, Cloudflare présente une série d’engagements précis pour éviter un nouvel incident similaire.
🔒 1. Gouvernance renforcée des fichiers de configuration
- Limites strictes de taille et de structure.
- Validation automatique avant propagation réseau.
- Vérification manuelle pour les changements sensibles.
🗄️ 2. Durcissement des permissions internes
- Revue complète des droits attribués aux bases déployant des configurations globales.
- Ajout de processus de changement plus stricts.
🧩 3. Résilience accrue des modules critiques
- Le système doit pouvoir ignorer un fichier corrompu au lieu de tomber en panne.
- Mise en place d’un « global kill switch » : désactivation instantanée d’un module fautif sur tout le réseau.
🔁 4. Rollback plus rapide
- Procédures de restauration accélérées.
- Simulations internes pour réduire le temps moyen de récupération.
🗣️ 5. Transparence continue avec les clients
- Publication du post-mortem complet.
- Mise en place d’une communication plus fréquente sur les changements majeurs.
🧭 Une leçon sur la résilience du web moderne
Cet incident montre que l’Internet est à la fois :
- Robuste : le trafic global est revenu en quelques heures.
- Fragile : une erreur interne dans un composant utilisé par un acteur majeur peut affecter des millions d’utilisateurs.
Pour les entreprises, cette panne rappelle l’importance de :
- planifier des stratégies multicloud ou multi-CDN,
- prévoir des scénarios de continuité d’activité,
- surveiller activement les dépendances critiques,
- documenter toutes les dépendances externes de leurs services.
📚 Sources
-
Cloudflare — Post-mortem officiel
https://blog.cloudflare.com/18-november-2025-outage/ -
Associated Press (AP News)
https://apnews.com/article/9335e8e0da2a0027d1fbac5eb97d11ae -
Reuters
https://www.reuters.com/business/elon-musks-x-down-thousands-us-users-downdetector-shows-2025-11-18/