Microsoft demonstreert VALL-E, een neuraal taalmodel dat bedoeld is voor tekst-naar-spraaksynthese. Het model getraind werd voor meer dan zestigduizend uur aan spraakopnames in de Engelse taal. Daardoor is het model nu al in staat om op basis van een opname van slechts drie seconden, iemands stem vrij realistisch te imiteren!
Afgezien van wat schoonheidsfoutjes is de vooruitgang van VALL-E indrukwekkend te noemen. De geproduceerde stemmen klinken over het algemeen zeer realistisch. Zo realistisch dat doemdenkers nu al van zich laten horen. Zo wordt er gevreesd dat technologieën zoals VALL-E kunnen worden ingezet in de verspreiding van misinformatie, omdat je zo nog makkelijker mensen woorden kan laten uitspreken die ze nooit gezegd hebben (red: inmiddels zijn daar genoeg voorbeelden van in de media verschenen).