Questo articolo è stato aggiornato il

Il 3 Marzo scorso alle ore 9:47 UTC CloudFlare si è eclissato, le conseguenze relative a questo disservizio hanno riguardato tutti i servizi di CloudFlare inclusi quelli di proxy web.

Durante il periodo di inattività chiunque, accedendo a CloudFlare.com o a qualsiasi altro sito del suo network aveva in risposta un errore DNS e tutti i tentativi di ping o di rintracciabilità davano come risultato “No Route to Host”.

Le cause di tale problema vanno ascritte ad un errore di sistema dei router; CloudFlare utilizza una rete di data center distribuita per tutto il globo terracqueo e, questi data center, si connettono a Internet per  mezzo di router che tracciano il percorso che sarà poi utilizzato da qualsiasi punto di internet per raggiungere il network creato da ClouFlare. Quando un router va down i percorsi per siti che utilizzano questo servizio risultano irraggiungibili; in genere (ci assicurano dalla società), quando si fa un servizio di manutenzione, i router in oggetto vengono spenti.

Comunque sia, siccome ColudFlare utilizza Anycast, il traffico su un data center che funziona male viane automaticamente dirottato su un altro più vicino.

schema del funzionamento di Anycast

Schema del funzionamento di Anycast

Purtroppo il bug in questione ha fatto cadere tutto il network.

Gli operatori di CloudFlare stavano osservando il procedere degli aventi dai loro monitor interni ed esterni e, purtroppo, non è stato chiaro dall'inizio il motivo per il quale i router hanno smesso di funzionare correttamente; in seguito, però, si sono resi conto che il problema derivava dall'impossibilità dei pacchetti di raggiungere il network.

Così gli operatori hanno potuto accedere ai router e accertarsi che il motivo del malfunzionamento era che avevano ricevuto delle informazioni inesatte (cosiddette “bad rule”); una volta corrette le istruzioni ai router sono stati riavviati tutti i server e ripristinato il tutto.

Sono stati 62 minuti davvero terribili, ma alle 10:49 UTC tutto era tornato normale.

Un grosso in bocca al lupo agli amici del team di CloudFlare che sono incappati in questo incidente e, con l'augurio (anche per tutti gli utenti) che non si verifichi mai più, buon lavoro!