Hoewel de hoeveelheid beschikbare data enorm is en blijft groeien, zijn er toch een aantal factoren die suggereren dat taalmodellen op een gegeven moment tegen grenzen van beschikbare en vooral betrouwbare data aan gaan lopen. AI-modellen, en dan met name de grote taalmodellen, vereisen enorme hoeveelheden data om zichzelf mee te trainen. De vraag naar data groeit exponentieel, terwijl de groei van nieuwe, bruikbare data niet in hetzelfde tempo toeneemt.
Niet alle data is even geschikt voor AI-training. Data moet relevant, accuraat, en vrij van bias zijn. Het vinden van voldoende hoge-kwaliteitsdata kan een uitdaging worden, zelfs als de totale hoeveelheid data blijft groeien. En daar zit gelijk ook de grote bottleneck: wat gebeurt er als het AI taalmodel zich ook gaat trainen met data die door AI is gemaakt?
In sommige specifieke domeinen, zoals medische beeldvorming of zeldzame talen, kan de hoeveelheid beschikbare data minder snel groeien, vergeleken met wat er op het internet te scrapen valt. Men stelt dat dit de ontwikkeling van AI in die domeinen gaat belemmeren.
Maar hoezo dan? Soms houdt de hoeveelheid kennis een keer op, tenzij er iets nieuws wordt (uit)gevonden en dan weer kan worden toegevoegd aan de data voor zowel het trainen van een taalmodel als de data die het taalmodel ons voorschotelt. Kennis verzinnen om steeds meer te kunnen leren is onrealistisch.
De groeiende bewustwording van privacy en ethische aspecten van dataverzameling kan leiden tot beperkingen in de beschikbaarheid van data. Dat is niet erg, want méér data beschikbaar stellen dan dat er is, neigt naar verzinsels en onbetrouwbaarheden die wij dan weer als betrouwbare informatie voorgeschoteld krijgen.
Synthetische data
Er wordt steeds meer onderzoek gedaan naar het genereren van synthetische data. Dit is kunstmatige data die de eigenschappen van echte data nabootst. Hoewel veelbelovend, is het nog onduidelijk of synthetische data volledig kan voldoen aan de behoeften van AI-modellen. Daarnaast is het belangrijk om te weten dat dit soort data geen gegevens van echte personen bevat en alleen moet worden gebruikt om algoritmes te trainen en bias te verminderen.
Het is waarschijnlijk dat we in de toekomst te maken gaan krijgen met minder snelle groei van de ‘intelligentie’ van AI-modellen en dat de kans op ‘verontreiniging’ van data steeds groter wordt als data, gecreeerd door AI zelf, onderdeel gaat worden van de data waarmee (andere) AI modellen zich trainen.