Se hai scelto di non accettare i cookie di profilazione e tracciamento, puoi aderire all’abbonamento "Consentless" a un costo molto accessibile, oppure scegliere un altro abbonamento per accedere ad ANSA.it.

Ti invitiamo a leggere le Condizioni Generali di Servizio, la Cookie Policy e l'Informativa Privacy.

Puoi leggere tutti i titoli di ANSA.it
e 10 contenuti ogni 30 giorni
a €16,99/anno

  • Servizio equivalente a quello accessibile prestando il consenso ai cookie di profilazione pubblicitaria e tracciamento
  • Durata annuale (senza rinnovo automatico)
  • Un pop-up ti avvertirà che hai raggiunto i contenuti consentiti in 30 giorni (potrai continuare a vedere tutti i titoli del sito, ma per aprire altri contenuti dovrai attendere il successivo periodo di 30 giorni)
  • Pubblicità presente ma non profilata o gestibile mediante il pannello delle preferenze
  • Iscrizione alle Newsletter tematiche curate dalle redazioni ANSA.


Per accedere senza limiti a tutti i contenuti di ANSA.it

Scegli il piano di abbonamento più adatto alle tue esigenze.

Microsoft svela l'AI che riproduce fedelmente le voci umane

Microsoft svela l'AI che riproduce fedelmente le voci umane

Vall-E replica tono e cadenza ascoltando esempi di tre secondi

MILANO, 16 gennaio 2023, 18:21

Redazione ANSA

ANSACheck

- RIPRODUZIONE RISERVATA

- RIPRODUZIONE RISERVATA
- RIPRODUZIONE RISERVATA

Bastano tre secondi di audio parlato perché Vall-E possa riprodurre, fedelmente, tono e cadenza di un essere umano. Si tratta dell'ultima frontiera dell'intelligenza artificiale, presentata dai ricercatori di Microsoft. Il modello è stato istruito su oltre 60.000 ore di discorsi e parole, in inglese, provenienti da oltre 7.000 fonti, tra cui audiolibri di dominio pubblico dell'archivio LibriVox.

Alcuni risultati vocali generati da Vall-E sono stati pubblicati sulla pagina https://valle-demo.github.io e dimostrano il livello a cui la tecnologia è arrivata. Alcuni studiosi della Cornell University hanno analizzato le prestazioni del software, concludendo che questo supera in modo significativo i sistemi di sintesi vocale attuali, conosciuti come "text to speech", che riproducono un testo scritto. "Non c'è nulla di simile, oggi sul mercato, in termini di naturalezza della pronuncia e di somiglianza con la voce originale" dicono dall'Università. Come nel caso dell'AI su cui si basa la piattaforma ChatGpt, che consente a chiunque di porre via web domande e ricevere risposte complesse, anche Vall-E solleva interrogativi sui suoi utilizzi poco etici. Ricreare voci al computer da associare a video falsi, del tipo deep fake, apre a problemi di sicurezza ancora inesplorati. Secondo gli esperti, i criminali informatici potrebbero sfruttare tecnologie del genere per ingannare le persone, via chat o tramite telefonate, facendosi credere qualcun altro. Affrontando i rischi di un uso improprio di Vall-E, i ricercatori spiegano però che questi possono essere mitigati: "È possibile creare un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da Vall-E o meno. Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l'ulteriore sviluppo della tecnica".
   

Riproduzione riservata © Copyright ANSA

Da non perdere

Condividi

O utilizza