U jutarnjim satima 18. studenoga dogodio se jedan od najvećih internetskih prekida posljednjih godina. Mnogi su korisnici pomislili da im je internet pao lokalno, no ubrzo se pokazalo da je riječ o globalnom problemu – i to takvom da su istovremeno bili nedostupni X (bivši Twitter), ChatGPT, Canva, Discord i još stotine drugih servisa. Zajednički nazivnik? Cloudflare.
Trenutno je situacija stabilna, a Cloudflare je objavio detaljan tehnički izvještaj. Na temelju tih informacija donosimo objašnjenje što se zapravo dogodilo, zašto je Cloudflare toliko važan i kako je jedna pogrešna konfiguracija privremeno “ugasila” dobar dio interneta.
Cloudflare je globalna mrežna infrastruktura koju koristi ogroman broj web-stranica i servisa. Najčešće se koristi kao CDN (za brže učitavanje sadržaja), DNS provider i sigurnosni sloj između korisnika i servera. Kada Cloudflare ima problem, posljedice ne osjeti samo jedna stranica – nego cijeli niz platformi koje se oslanjaju na njegovu mrežu. Neke procjene govore da Cloudflare obrađuje oko petinu ukupnog web-prometa.
U subotu je došlo upravo do takvog problema. Oko podne Cloudflare je počeo generirati HTTP 500 greške, a korisnici su masovno prijavljivali da ne mogu pristupiti brojnim poznatim servisima. Isprva se sumnjalo na napad, no iz Cloudflarea su potvrdili da nije riječ ni o kakvom DDoS-u ni vanjskom rušenju sustava.
Krivac je bila pogreška unutar jednog dijela njihove infrastrukture – sustava za upravljanje botovima. Zbog pogrešno postavljenih dopuštenja u bazi podataka, jedna konfiguracijska datoteka narasla je dvostruko više nego što smije. Softver koji učitava tu konfiguraciju nije mogao podnijeti veličinu, što je dovelo do pada proxy sustava u velikom dijelu Cloudflareove globalne mreže. Rezultat su bile nestabilnosti i nedostupnost stranica koje se oslanjaju na Cloudflareove servise.
Kako su greške počele putovati kroz mrežu, problemi su se multiplicirali. Web-stranice su se učitavale sporo ili nikako, a platforme s visokim opterećenjem prometom – poput društvenih mreža ili AI servisa – bile su posebno pogođene. Cloudflare je relativno brzo identificirao uzrok, povukao sigurnu stariju verziju konfiguracije i ponovno pokrenuo ključne module. Do ranog poslijepodneva većina mreže bila je operativna, a navečer potpuno stabilizirana.
Cloudflare je nakon incidenta objavio da će uvesti dodatne mehanizme provjere konfiguracija, bolje ograničenje veličina kritičnih datoteka i globalni sustav “kill switcha” koji bi trebao spriječiti da jedna loša promjena izazove globalni kaos. Njihov CTO javno se ispričao i incident nazvao neprihvatljivim.
Ovaj pad još jednom pokazuje koliko je moderna mrežna infrastruktura centralizirana. Iako internet zamišljamo kao decentraliziranu mrežu, u praksi o njemu ovisi samo nekoliko velikih pružatelja usluga. Kada oni zakažu – kao što se dogodilo u subotu – posljedice se osjete svuda.
Za krajnje korisnike ovo je bio samo neugodan vikend bez nekih servisa, ali za tvrtke koje ovise o stalnoj dostupnosti radi se o ozbiljnom podsjetniku na potrebu za redundancijom. A za Cloudflare, jedan od najtežih padova od 2019. bit će lekcija o tome koliko oprezno treba postupati s konfiguracijama koje pokreću globalnu mrežu.









