• Logo Gilde Walcheren

In drie seconden je stem nagebootst
I

Microsoft demonstreert VALL-E, een neuraal taalmodel dat bedoeld is voor tekst-naar-spraaksynthese. Het model getraind werd voor meer dan zestigduizend uur aan spraakopnames in de Engelse taal. Daardoor is het model nu al in staat om op basis van een opname van slechts drie seconden, iemands stem vrij realistisch te imiteren!

Afgezien van wat schoonheidsfoutjes is de vooruitgang van VALL-E indrukwekkend te noemen. De geproduceerde stemmen klinken over het algemeen zeer realistisch. Zo realistisch dat doemdenkers nu al van zich laten horen. Zo wordt er gevreesd dat technologieën zoals VALL-E kunnen worden ingezet in de verspreiding van misinformatie, omdat je zo nog makkelijker mensen woorden kan laten uitspreken die ze nooit gezegd hebben (red: inmiddels zijn daar genoeg voorbeelden van in de media verschenen).

ITDaily | VALL-E

Trending

LAATSTE NIEUWS

Ook Britse overheid wil inzage in werking AI toepassingen

De Britse overheid is met name geïnteresseerd over 'model weights' die bedrijven gebruiken in hun AI-modellen. Dit soort factoren kunnen in een AI-toepassing de...

Bingewatchers