Il giorno in cui “mezzo Internet” ha iniziato a restituire errore

Redazione

20 Novembre 2025

Nessun commento

Informatica, Mondo, Notizie, Social & Web

Il crash di Cloudflare del 18 novembre 2025: quando un bug ha mostrato la fragilità di Internet

Il 18 novembre 2025, nel giro di pochi minuti, per milioni di persone il web si è trasformato in una sequenza di pagine di errore: 500, 502, “internal server error”. Piattaforme come X (ex Twitter), ChatGPT, Spotify, Uber, Canva, siti istituzionali, e perfino i servizi di monitoraggio come DownDetector hanno iniziato a non rispondere o a farlo in modo intermittente. The Verge+1

Il denominatore comune era uno: Cloudflare, il gigante dell’infrastruttura Internet che protegge e accelera il traffico di una fetta enorme del web (circa un sito su cinque passa dai suoi sistemi). The Washington Post+1

Quello che per molti è stato “solo” un disservizio di qualche ora, in realtà è un campanello d’allarme fortissimo: quanto è fragile un mondo che dipende così tanto da pochi nodi centrali di connessione?

Cosa è successo davvero il 18 novembre 2025

Secondo il report ufficiale di Cloudflare, i problemi sono iniziati intorno alle 11:20 UTC (12:20 in Italia), quando la rete ha iniziato a generare un picco anomalo di errori 5xx su scala globale. The Cloudflare Blog+1

La causa non è stato un attacco hacker, ma qualcosa di molto più “banale” e allo stesso tempo inquietante:

una modifica alle autorizzazioni di un database interno ha fatto sì che venissero generati più dati del previsto in un file di configurazione usato dal sistema di Bot Management (quello che distingue il traffico umano dai bot); The Cloudflare Blog
questo file è improvvisamente raddoppiato di dimensione e, una volta distribuito alla rete globale di server di Cloudflare, ha superato un limite previsto dal software che instrada il traffico; The Cloudflare Blog+1
il software, non riuscendo a gestire il file, ha iniziato a crashare, generando errori interni e interrompendo l’instradamento corretto delle richieste verso i siti dei clienti.

In un primo momento all’interno dell’azienda si è persino ipotizzato un attacco DDoS di dimensioni eccezionali, proprio perché la sintomatologia (un’ondata di errori diffusa e improvvisa) somigliava a quella di un’aggressione dall’esterno. Ma dopo le verifiche è emerso che si trattava di un bug latente, scatenato da una normale modifica di configurazione. The Cloudflare Blog+1

Cloudflare ha bloccato la propagazione del file difettoso, ripristinato una versione precedente e poi distribuito la correzione. La maggior parte del traffico è tornata a scorrere normalmente intorno alle 14:30 UTC, anche se gli strascichi (lentezze, code, servizi ancora giù) sono proseguiti per ore. The Cloudflare Blog+1

Timeline sintetica dell’incidente (box riassuntivo)

Timeline del crash Cloudflare – 18 novembre 2025 (orari UTC)

11:20 – Nel network Cloudflare iniziano i primi fallimenti nella consegna del traffico core, dovuti alla feature file anomala del sistema di Bot Management. The Cloudflare Blog+1
≈ 11:30–11:50 – L’errore si propaga: compaiono massicci errori 5xx su siti che usano Cloudflare, inclusi X, ChatGPT, Canva e altri servizi ad altissimo traffico. Medium+2Tom’s Hardware+2
12:00–13:00 – Cloudflare indaga: inizialmente si sospetta un gigantesco attacco DDoS, poi viene individuata la causa nella feature file generata dal database con permessi errati. The Cloudflare Blog+2The Cloudflare Blog+2
≈ 13:30 – Viene fermata la distribuzione del file difettoso e sostituita con una versione precedente cominciando a drenare gli errori. The Cloudflare Blog+1
14:30 – Il traffico core torna in gran parte normale a livello globale. The Cloudflare Blog
14:42 – Cloudflare comunica ufficialmente di aver implementato il fix e che l’incidente è in via di risoluzione, anche se rimangono per un po’ problemi residui su dashboard e WARP. Tom’s Hardware+1

Durata complessiva del disservizio principale: circa 3 ore.

Cloudflare: l’infrastruttura invisibile che regge il web

Per capire la portata dell’incidente, bisogna capire cos’è Cloudflare.

Non è un “semplice” provider: è una rete globale di oltre 300 data center che si posiziona tra gli utenti e i siti web per:

distribuire i contenuti più vicino all’utente (CDN);
proteggere da attacchi DDoS e traffico malevolo;
filtrare, ottimizzare, e in molti casi decidere se una richiesta arriverà mai al server di destinazione. The Washington Post+1

Col tempo, sempre più aziende – dalle startup ai giganti tech, passando per istituzioni e governi – hanno preferito “appoggiarsi” a questa infrastruttura esterna, perché:

è veloce,
è relativamente economica,
riduce la complessità tecnica interna,
offre sicurezza “chiavi in mano”.

Il risultato? Una concentrazione enorme di potere e responsabilità: se Cloudflare si ferma, una porzione significativa del web rallenta, vacilla o cade.

L’episodio del 18 novembre ha mostrato cosa significa, in pratica, questa dipendenza: un singolo bug, in un singolo anello della catena, è stato sufficiente per causare disservizi a:

piattaforme social (X/Twitter);
servizi di AI (ChatGPT e altri LLM);
app consumer globali (Spotify, Uber, Canva);
siti aziendali, servizi di pagamento, portali di istituzioni e aeroporti. The Verge+2

In alcuni settori, come il trading online, si stima che solo poche ore di fermo abbiamo comportato fino a 1,6 miliardi di dollari di volumi di scambio mancati.

La nostra dipendenza quotidiana dalle connessioni

Per molti utenti il crash di Cloudflare si è tradotto in “non funziona X, sarà un problema dell’app”. Ma dietro a quei secondi di frustrazione, la realtà è molto più ampia.

Oggi ogni gesto quotidiano dipende da collegamenti invisibili:

Lavoro: smart working, riunioni su piattaforme video, accesso a gestionali e CRM cloud. Se una parte della rete si blocca, interi team restano fermi.
Acquisti: e-commerce, pagamenti online, gestione degli ordini nei negozi fisici collegati al cloud. Un errore 500 può significare carrelli abbandonati e incassi persi.
Servizi pubblici: prenotazioni sanitarie, portali della PA, siti informativi. La cittadinanza digitale smette di essere accessibile nel momento esatto in cui più persone ne hanno bisogno.
Comunicazione e informazione: social network, messaggistica, piattaforme di contenuti. Se cadono i grandi nodi, la circolazione delle informazioni si interrompe o migra altrove in modo caotico.
IoT e automazione: sistemi di domotica, logistica, monitoraggio industriale spesso dipendono da API e servizi instradati tramite provider come Cloudflare.

Il crash di un fornitore di infrastruttura non è quindi solo un “problema tecnico”: è un rischio sistemico, che tocca economia, relazioni sociali e in alcuni casi sicurezza.

Non è un caso isolato: una catena di blackout digitali

L’incidente del 18 novembre 2025 non arriva nel vuoto. È solo l’ultimo anello di una sequenza di grandi disservizi che hanno visto protagonisti anche altri provider cloud come Amazon Web Services e Microsoft Azure. Tom’s Hardware+1

Sommandoli, emerge un quadro scomodo:

una parte enorme del traffico mondiale passa da pochissimi attori;
questi attori condividono architetture simili e logiche operative basate su automazione estrema e aggiornamenti continui;
un errore di configurazione, un bug o un deploy sbagliato non colpisce più “solo” un sito, ma milioni di utenti e migliaia di aziende contemporaneamente.

Paradossalmente, gli stessi player che difendono il web dai DDoS più grandi della storia sono anche singoli punti di rottura: se si inceppano, l’effetto è amplificato proprio perché sono diventati indispensabili. The Cloudflare Blog+1

Cosa ci insegna questo crash (alle aziende)

Per le organizzazioni che dipendono dal digitale, l’outage di Cloudflare dovrebbe essere letto come un promemoria operativo, non solo come una curiosità di cronaca tech.

Alcuni spunti concreti:

Evitare il single point of failure a livello di provider
Dove possibile, progettare architetture che prevedano:
- multi-CDN (più fornitori di distribuzione contenuti);
- percorsi alternativi per i servizi critici (ad esempio, la possibilità di bypassare certi layer in emergenza).
Piani di continuità operativa realistici
Non basta avere un documento: servono procedure chiare per rispondere quando l’infrastruttura esterna è giù:
- comunicare in modo trasparente con i clienti;
- definire canali informativi ridondanti (newsletter, SMS, pagine di status su domini separati);
- simulare periodicamente scenari di blackout.
Ridurre la dipendenza “inconsapevole”
Molte aziende non sanno nemmeno di usare Cloudflare o altri provider simili, perché la scelta è stata fatta anni prima o da partner esterni. Mappare queste dipendenze è il primo passo per gestirle.
Osservabilità e monitoraggio multi-sorgente
Affidarsi solo a un sistema di monitoring (che magari dipende anch’esso dal provider in crisi) è pericoloso. Avere più punti di osservazione aiuta a distinguere un problema interno da un incidente esterno.

Checklist operativa per le aziende (call to action)

Se gestisci un’azienda digitale, l’outage del 18 novembre è l’occasione per una mini-audit interna. Alcune domande pratiche da trasformare in azione:

Sai esattamente da quali provider dipendono i tuoi servizi?
- Fai un inventario: CDN, DNS, hosting, servizi di sicurezza, API esterne.
- Segna quali componenti critiche passano da Cloudflare (o equivalenti).
Cosa succede se domani il tuo provider principale è giù per 3 ore?
- Chi informa i clienti? Con quali messaggi e su quali canali?
- Quali processi possono continuare offline o in modalità degradata?
Hai almeno una forma di ridondanza?
- DNS secondario, backup statico del sito, canali di pagamento alternativi, ecc.
- Se no, individua almeno un punto in cui introdurre ridondanza entro i prossimi 30 giorni.
Hai una persona o un team responsabile della resilienza digitale?
- Non è solo un tema “IT”: coinvolge marketing, customer care, legale, operations.

Call to action
Prendi il crash di Cloudflare come un “test a freddo” della tua infrastruttura: se la risposta è “non saprei cosa fare”, il momento giusto per intervenire è adesso, non durante il prossimo blackout.

Cosa ci insegna questo crash (a noi come persone)

Sul piano personale, il crash di Cloudflare è anche uno specchio della nostra dipendenza emotiva e cognitiva dalla connessione:

un’app che non carica genera stress immediato;
se un servizio di AI non risponde, molte attività quotidiane (scrivere, tradurre, riassumere, documentarsi) rallentano bruscamente;
perdiamo di colpo la sensazione di “controllo” sul flusso di informazioni.

Forse la lezione più semplice – ma anche la più difficile da accettare – è che Internet non è un bene scontato: è una infrastruttura complessa, piena di fragilità, gestita da aziende, persone, codice, e quindi fallibile.

Prendere consapevolezza di questo può portarci a:

diversificare le nostre fonti e strumenti;
tenerci qualche “piano B” offline (documenti, contatti, procedure);
essere un po’ meno sorpresi quando il digitale mostra i suoi limiti.

Conclusione: un blackout come promemoria

Il crash di Cloudflare del 18 novembre 2025 è durato poche ore, ma il messaggio che lascia è destinato a rimanere molto più a lungo.

Un semplice bug di configurazione, nascosto in un sistema pensato per proteggerci dai bot e dagli attacchi, è bastato per far vacillare una parte enorme del web e ricordarci che:

abbiamo costruito gran parte della nostra vita su infrastrutture centralizzate e spesso opache;
la resilienza non è solo una questione tecnica, ma anche organizzativa e culturale;
l’illusione di un Internet “sempre disponibile” è, appunto, un’illusione.

Non possiamo rinunciare alla connessione, ma possiamo – e dobbiamo – imparare a convivere con la sua fragilità. Il 18 novembre 2025 resterà come una data simbolo di questa consapevolezza.

Il CEO sottolinea che non si è trattato di un attacco informatico (DDoS o simili). In seguito ad una modifica delle autorizzazioni di uno dei sistemi di database, le dimensioni del file utilizzato dal sistema di gestione dei bot sono raddoppiate. Questo file, che contiene l’elenco dei bot da bloccare, è stato quindi distribuito a tutte le macchine che compongono la rete di Cloudflare.

Il problema non è stato causato, direttamente o indirettamente, da un attacco informatico o da attività dannose di alcun genere, ma è stato innescato da una modifica alle autorizzazioni di uno dei nostri sistemi di database che ha fatto sì che il database generasse più voci in un “file di funzionalità” utilizzato dal nostro sistema di Bot Management. Tale file di funzionalità, a sua volta, è raddoppiato in dimensioni. Il file di funzionalità, più grande del previsto, è stato quindi propagato a tutte le macchine che compongono la nostra rete….

Sempre dal CEO di Cloudflare:

Oggi si è verificata la peggiore interruzione di Cloudflare dal 2019. Abbiamo avuto interruzioni che hanno reso indisponibile la nostra dashboard. Interruzioni che hanno causato la mancata disponibilità di funzionalità più recenti per un certo periodo di tempo. Negli ultimi sei anni e più, non abbiamo avuto un altro disservizio che abbia causato l’interruzione del flusso della maggior parte del traffico principale attraverso la nostra rete.

Un’interruzione come quella di oggi è inaccettabile. Abbiamo progettato i nostri sistemi per essere altamente resilienti ai guasti, al fine di garantire che il traffico continui a fluire senza interruzioni. In passato, le interruzioni ci hanno sempre spinto a creare sistemi nuovi e più resilienti.

A nome di tutto il team di Cloudflare, desidero porgere le nostre scuse per il disagio che abbiamo causato oggi a Internet.

Quanto è stato utile questo post?

Clicca su una stella per valutarla!