
Image by Oberon Copeland, from Unsplash
AI boti přetěžují servery Wikipedie
Nadace Wikimedia vyjadřuje obavy nad rostoucím tlakem na své servery z důvodu automatizovaných botů, které sbírají data pro výcvik modelů umělé inteligence.
Spěcháte? Zde jsou stručné fakty:
- AI boti prohledávají obsah Wikimedia na rekordních úrovních.
- Boti způsobili nárůst využití multimediální šířky pásma o 50%.
- 65% nákladného provozu nyní pochází od prohledávačů.
Nadace oznámila v nedávném příspěvku, že strojově generovaná návštěvnost pokračuje v nevídaném růstu, zatímco lidé tvoří pouze malou část této návštěvnosti.
„Od ledna 2024 jsme zaznamenali nárůst šířky pásma využívaného pro stahování multimediálního obsahu o 50%,“ uvádí příspěvek.
„Tento nárůst nepřichází od lidských čtenářů, ale především od automatizovaných programů, které prohledávají katalog obrázků Wikimedia Commons s otevřeně licencovanými obrázky, aby zásobovaly obrázky do AI modelů,“ dodává příspěvek.
Boti známí jako crawleři kradou velké množství dat z projektů Wikimedia, včetně Wikipedie a Wikimedia Commons, aniž by poskytovali řádné uznání nebo používali oficiální nástroje pro přístup. Tento proces komplikuje novým uživatelům objevení Wikimedia a přetěžuje jejich technické systémy.
Například v příspěvku je uvedeno, že Wikipedia stránka Jimmyho Cartera zaznamenala více než 2,8 milionu zhlédnutí v den jeho úmrtí v prosinci 2024. Video z debaty z roku 1980 způsobilo významný nárůst návštěvnosti webu. Video z jeho debaty z roku 1980 také zvýšilo návštěvnost. Wikimedia to zvládla – ale jen těsně. Skutečným problémem podle inženýrů je neustálý tok botů.
„65% naší nejdražší návštěvnosti pochází od botů,“ napsala Nadace. Boti „hromadně čtou“ obsah, zejména méně populární stránky, což vyvolává nákladné požadavky na jádrová datacentra Wikimedia.
Ačkoli je obsah Wikimedia zdarma, jeho servery nejsou. „Náš obsah je zdarma, naše infrastruktura ne,“ uvedla Nadace. Tým pokračuje ve vývoji metod pro podporu „odpovědného využití infrastruktury“ tím, že vývojáře nabádá k použití API místo skenování celého webu.
Tento problém postihuje Wikimedia stejně tak jako mnoho dalších webů a vydavatelů. Nicméně pro největší světovou platformu otevřených znalostí představuje hrozbu pro stabilitu služeb, na kterých se spoléhají miliony lidí.
Zanechat komentář
Zrušit