Wat is content scraping?

Wat is content scraping?
W

128

In een digitale wereld waar AI zich onwrikbaar probeert te nestelen, zijn er nu ook bedrijven die zich willen beveiligen tegen het gebruik van hun online content door AI data trainers. Deze services grazen het web af (content scraping) om zo de databestanden, die chatbots en generatieve AI tools gebruiken om op hun beurt ook weer content te genereren, met gevonden data te voeden.

Zo zouden nieuwsorganisaties zoals The Washington Post, New York Times en Reuters ChatGPT-blockers gebruiken. De online content van deze media is een belangrijk verdienmodel dat niet zomaar door andere partijen gebruik zou mogen worden (en daarbij het intellectuele eigendom van de originele auteurs overtredend).

Communityplatform Reddit is hierin het meest extreem. Het verhoogde onlangs de prijzen van zijn API van gratis naar bijna onbetaalbaar, om zo te voorkomen dat AI-bedrijven haar data zou gebruiken voor het trainen van hun LLM-modellen. Tevens is het platform van plan om financiële compensatie te eisen. Mocht dat niet worden ingewilligd, dan wil het de search crawlers van onder andere Google en Bing gaan blokkeren.

ViaTechzine