In drie seconden je stem nagebootst
I

Microsoft demonstreert VALL-E, een neuraal taalmodel dat bedoeld is voor tekst-naar-spraaksynthese. Het model getraind werd voor meer dan zestigduizend uur aan spraakopnames in de Engelse taal. Daardoor is het model nu al in staat om op basis van een opname van slechts drie seconden, iemands stem vrij realistisch te imiteren!

Afgezien van wat schoonheidsfoutjes is de vooruitgang van VALL-E indrukwekkend te noemen. De geproduceerde stemmen klinken over het algemeen zeer realistisch. Zo realistisch dat doemdenkers nu al van zich laten horen. Zo wordt er gevreesd dat technologieën zoals VALL-E kunnen worden ingezet in de verspreiding van misinformatie, omdat je zo nog makkelijker mensen woorden kan laten uitspreken die ze nooit gezegd hebben (red: inmiddels zijn daar genoeg voorbeelden van in de media verschenen).

ITDaily | VALL-E

LAATSTE NIEUWS

Wereldprimeur Haven van Antwerpen

Vanaf eind 2024 beschikt de Haven van Antwerpen, samen met die van Zeebrugge, over de Volta 1, een volledig electrische sleepboot. De RSD-E Tug 2513,...