AI botovi posljednjih su mjeseci postali prava noćna mora za web stranice koje se bave pisanim sadržajem i medijima. Od Wikipedije do osobnih blogova, gotovo nitko nije pošteđen masovnog scrapinga interneta koji provode OpenAI i druge tehnološke kompanije u potrazi za svježim materijalom za treniranje svojih AI modela.
Zaklada Wikimedia, neprofitna organizacija koja stoji iza Wikipedije i brojnih drugih globalno popularnih projekata, javno je izrazila zabrinutost zbog aktivnosti AI scraper botova koji ugrožavaju stabilnost njihove infrastrukture, posebice u pogledu internetske propusnosti. Od početka 2024. godine zabilježen je značajan porast potrošnje mrežnog prometa, uglavnom generiranog od strane automatiziranih programa koji u velikim količinama preuzimaju sadržaj radi treniranja umjetne inteligencije.
Wikimedia projekti okupljaju neke od najvećih zbirki znanja i javno dostupnih medija na internetu, a koristi ih više milijardi ljudi diljem svijeta. Wikimedia Commons, koji sadrži preko 144 milijuna slika, videozapisa i drugih datoteka pod javnom licencom, posebno je pogođen nereguliranim aktivnostima botova.
Prema podacima Zaklade, od siječnja 2024. potrošnja mrežne propusnosti za multimedijalne datoteke porasla je za čak 50 posto – a glavni izvor prometa su upravo botovi. Automatizirani alati intenzivno rade scraping sadržaja Wikimedia Commonsa i preuzimaju slike i druge datoteke kako bi ih plasirali u AI modele, čime ozbiljno opterećuju infrastrukturu koja nije dizajnirana za ovakvu vrstu “parazitskog” prometa.
Zaklada je imala konkretan dokaz o utjecaju AI scraper botova u prosincu 2024., kad je preminuo bivši američki predsjednik Jimmy Carter. Tada je 2,8 milijuna ljudi posjetilo njegovu stranicu na engleskoj Wikipediji, što je bilo podnošljivo. Međutim, dodatni pritisak uzrokovao je 1,5-satni video debate Cartera i Reagana iz 1980., koji je velik broj korisnika odlučio pogledati upravo tada.
Taj nenadani porast prometa gotovo je udvostručio uobičajeno opterećenje, zbog čega je manji broj ruta povezivanja Wikipedije s ostatkom interneta bio zagušen oko jedan sat. Tim za stabilnost sustava uspio je preusmjeriti promet i normalizirati stanje, ali ovakvi “prekidi” upozoravaju na ozbiljan strukturni problem.
Nadalje, analizom prometa tijekom jednog procesa migracije sustava, Wikimedia je utvrdila da najmanje 65 posto najzahtjevnijeg prometa dolazi od botova koji zaobilaze predmemoriju i izravno opterećuju podatkovne centre.
Zaklada radi na rješavanju ovog sve izraženijeg izazova, koji sve više pogađa cijeli internet, budući da AI i tehnološke kompanije ne biraju sredstva u potrazi za sadržajem. „Osiguravanje pouzdanog sadržaja danas također znači razvijanje modela ‘znanja kao usluge’ – gdje priznajemo da cijeli internet crpi iz našeg rada,” poručuju iz Zaklade.
Wikimedia stoga zagovara odgovorniji pristup pristupu infrastrukturi, pozivajući na bolju koordinaciju s AI tvrtkama. Predlažu uvođenje posebnih API sučelja kako bi se olakšalo prepoznavanje korisnika i smanjilo opterećenje, ali i učinkovitije identificirali “loši akteri” u industriji umjetne inteligencije.
IZVOR









