Mardi, vers midi (heure belge), de nombreux sites web ont été indisponibles pendant un peu moins d’une heure. C’était le cas de Business AM, mais aussi de CNN, Reddit, Twitch, Pinterest, Financial Times, etc. La panne était liée au CDN Fastly, qui a expliqué ce mercredi ce qu’il s’est vraiment passé.
Alors que des dizaines de sites dans le monde affichaient Error 503, de nombreux internautes ont pensé à une cyberattaque sur un réseau. Les pirates sont de plus en plus fréquents ces derniers mois, et une telle panne aurait très bien pu être causée par une cyberattaque.
Mais, en vérité, il s’agit tout simplement d’un seul client du réseau de diffusion de contenu Fastly qui a activé sans le vouloir un bug dans la dernière mise à jour du réseau. La dernière mise à jour, datant de la mi-mai, contenait une erreur que les tests du réseau n’avaient pas mise en évidence. Ce bug était resté en sommeil jusqu’à ce mardi 8 juin. Lors d’un ‘changement de configuration valide’, un client a révélé ce bug, qui a fait sauter près de 85% du réseau.
CDN et panne mondiale
Pour comprendre ce qu’il s’est passé, il faut savoir ce qu’est un CDN. Il s’agit d’un content delivery network, c’est-à-dire en français un réseau de diffusion de contenu. Le principe fonctionne selon le cloud computing et cela a pour but d’accélérer le chargement de pages internet même si elles sont hébergées dans un autre pays. Les données du site sont enregistrées dans un réseau proche de chez vous pour pouvoir y accéder plus facilement.
Une erreur de configuration peut se répercuter facilement sur le reste du réseau, le rendant indisponible. Et c’est ce qui est arrivé ce mardi. En règle générale, cela provoque une panne seulement sur un réseau local. Mais dans ce cas-ci, la panne s’est aussi ressentie outre-Atlantique, même s’il n’était que 3 heures du matin et que moins de personnes y ont donc assisté.
Le problème de mardi provient d’un bug non détecté sur la dernière mise à jour du réseau Fastly. Son activation par mégarde d’un client mardi est donc remontée jusqu’au serveur central, le rendant ainsi inaccessible par la plupart des sites reliés.
‘Nous avons identifié une configuration de service qui a déclenché des perturbations sur nos POP dans le monde et avons désactivé cette configuration’, a expliqué la société Fastly dans un communiqué de presse. La réaction du réseau a été extrêmement rapide : en moins d’une heure, la configuration avait été détectée et désactivée et les sites avaient été relancés.
Des dizaines de sites désactivés
En Europe, la panne est survenue sur le temps de midi. De nombreux internautes ont donc été confrontés à une Erreur 503 lorsqu’ils souhaitaient se rendre sur leur site favori. Il faut dire que la liste est impressionnante. Des médias comme Financial Times, CNN, NYTimesn Le Monde, BBC ou Business AM, ont été inaccessibles. Mais aussi des réseaux sociaux comme Reddit, Twitch, Pinterest ou Quora, des sites de streaming et de vidéos comme HBO Max ou Vimeo ou encore des sites gouvernementaux comme les plateformes de l’administration britannique.
Cette liste s’explique par la faible offre en CDN sur le marché. Peu d’entreprises proposent un tel réseau, qui est pourtant très utile aux sites internet. Selon Fastly, le chargement de Buzzfeed est 50% plus rapide depuis qu’il est devenu client. Les seules entreprises qui proposent un tel service sont donc fortement demandées et de nombreux sites sont ainsi reliés au même réseau.
Réparation
Après le rétablissement de l’ensemble du réseau, Fastly a annoncé travailler sur la suppression du bug qui a causé la panne. Un examen des réactions qui ont suivi la détection de la panne sera également réalisé.
‘Même s’il y avait des conditions spécifiques qui ont déclenché cette panne, nous aurions dû l’anticiper’, a expliqué Fastly dans un article de blog. Les tests réalisés avant le lancement de la mise à jour n’avaient en effet pas révélé ce problème.
Pour aller plus loin: