GPTBot veroorzaakt DDoS aanval: Bescherming en preventie

GPTBot veroorzaakt DDoS aanval
G

139

Oleksandr Tomchuk, CEO van Triplegangers, een bedrijf dat 3D-modellen van mensen verkoopt, ontdekte tot zijn schrik dat zijn website plat lag door een bot van OpenAI die probeerde alle afbeeldingen en data te kopiëren. Deze bot, genaamd GPTBot, veroorzaakte een denial-of-service (DDoS) aanval door een enorme hoeveelheid server requests te versturen, waardoor de website crashte.

Het bedrijf van Tomchuk heeft een database met meer dan 65.000 producten, elk met meerdere foto’s. OpenAI’s bot gebruikte honderden IP-adressen om deze data te verzamelen, ondanks de servicevoorwaarden van Triplegangers die dit verbieden.

Websites kunnen zich beschermen tegen dergelijke bots met een robot.txt bestand, waarin specifieke instructies staan voor bots:

User-agent: BLEXBot
User-agent: Baiduspider
User-agent: Barkrowler
User-agent: Gigabot
User-agent: Go-http-client
User-agent: Nuclei
User-agent: Riddler
User-agent: SeznamBot
User-agent: WikiDo
User-agent: Yandex	
User-agent: Zoominfobot
User-agent: magpie-crawler
User-agent: AdsBot-Google
User-agent: MJ12bot
User-agent: YandexImages
User-agent: AhrefsBot
User-agent: Node/simplecrawler
User-agent: CazoodleBot
User-agent: dotbot/1.0
User-agent: PetalBot
User-agent: Zoominfobot
User-agent: Node/simplecrawler
User-agent: CazoodleBot
User-agent: dotbot/1.0
Disallow: /

Bovenstaande voorbeeld is echter géén waterdichte oplossing. OpenAI heeft weliswaar beloofd een opt-out tool te ontwikkelen, maar die is er tot op heden nog niet. Het probleem is dat bedrijven geen controle hebben over welke data wordt verzameld en hoe die wordt gebruikt door AI-bedrijven. Dit is zorgwekkend, vooral met wetten zoals de GDPR die de privacy van personen beschermen. Triplegangers scant immers echte mensen om hun 3D-modellen te creëren.

De ironie is dat de agressieve aanpak van de OpenAI bot Triplegangers juist heeft gewaarschuwd. Als de bot subtieler te werk was gegaan, had Tomchuk nooit geweten dat zijn data werd gekopieerd.

Dit incident werpt een licht op de groeiende problematiek van AI-bedrijven die data verzamelen van websites zonder toestemming. Onderzoek toont aan dat dit soort “invalid traffic” in 2024 met 86% is toegenomen. Veel eigenaren van websites zijn zich niet bewust van dit probleem en moeten hun logs dagelijks controleren op verdachte activiteiten.

Wellicht wordt het tijd voor meer transparantie en controle over hoe AI-bedrijven data verzamelen en gebruiken. De verantwoordelijkheid moet niet bij de website eigenaren liggen om zich te beschermen, maar AI-bedrijven zouden toestemming moeten vragen voordat ze data verzamelen.