Data crunching verwijst naar het proces waarmee grote hoeveelheden gegevens geschikt worden gemaakt voor analyse: het verwijdert ongewenste informatie en opmaak,ย vertaalt gegevens in het vereiste formaat en structureert die voor analyse of verwerking door andere toepassingen. Dat kunnen rekenmodellen zijn, van Excel tot… AI (daar zijn we weer).
Ook in de sport wordt gebruik gemaakt van deze methode. Zo wordt op grote schaal data van sporters opgeslagen, van training tot wedstrijd. Er zijn echter ook onderlagen die gebruik maken van dit soort data: wedkantoren en, steeds vaker, de mensen die op wedstrijden wedden.
‘Beat the bookmakers’
Een voorbeeld van een dienst die tips op basis van een abonnement aan te bieden is Trademate Sports. Andere programma’s proberen resultaten op de lange termijn te voorspellen: Unanimous.AI is een bedrijf dat de exacte score van de Super Bowl in 2017 correct voorspelde, evenals de resultaten van de paardenraces in de Kentucky Derby later dat jaar.
Programmeertalen
Naast toepassing van AI op datamodellen, zijn er een aantal programmeertalen die voornamelijk zijn ontworpen voor statistische analyse:
- R
Een open-sourcetaal voor statistische berekeningen en afbeeldingen, is een van de meest gebruikte tools. Het kan worden gebruikt om informatie uit grote, complexe datasets te extraheren en rommelige gegevens om te zetten in een gestructureerde vorm. Rond R is een uitgebreid ecosysteem ontstaan, waaronder duizenden pakketten die de functionaliteit van de taal uitbreiden. - Python
Wordt voor veel verschillende doeleinden gebruikt, waaronder wetenschappelijk en statistisch computergebruik. Het wordt als relatief eenvoudig te leren beschouwd vanwege de intuรฏtieve en heldere syntaxis. Het kan worden gebruikt voor uiteenlopende taken, van het importeren van gegevens uit Excel-sheets tot het verwerken van complexe datasets voor tijdreeksanalyse. - Java (Oracle)
Een open-source programmeertaal voor algemeen gebruik. Enkele van de grootste technologiebedrijven gebruiken Java om hun producten te bouwen, en het vormt ook de kern van big data-frameworks, zoals Hadoop. - MATLAB (MathWorks)
Een, op matrix gebaseerde taal, die is ontworpen om ingenieurs en wetenschappers te helpen bij het analyseren van systemen en het bouwen van modellen. De eerste commerciรซle versies van MATLAB werden uitgebracht in de jaren 1980. Tegenwoordig wordt het op grote schaal gebruikt voor data-intensieve wetenschappelijke toepassingen zoals computervisie en signaalanalyse. MATLAB wordt gebruikt voor zowel datacrunching als analyse. De beknopte syntaxis stelt datawetenschappers en -ingenieurs in staat om functies te schrijven met minder code dan met sommige andere veelgebruikte talen. - SAS (SAS Institute)
Een softwarepakket dat wordt gebruikt voor statistiek en analyse. SAS werd oorspronkelijk ontwikkeld in de jaren 1970, maar wordt nog steeds veel gebruikt in veel industrieรซn en academische instellingen. Als resultaat van tientallen jaren van verbeteringen bevat de software een uitgebreide set functies. Het bedrijf biedt producten aan die op maat zijn gemaakt voor specifieke doeleinden, waaronder analyse van klantgedrag.