Según la compañía, su sistema llamado VALL-E 2 es tan poderoso que conlleva riesgos. ¿Qué problemáticas se asocian a esas tecnologías?
22 de julio 2024, 11:05hs
Microsoft VALL-E 2: ¿qué es y cuáles son sus habilidades?
Aquel es el nombre que Microsoft le dio a su inteligencia artificial que clona voces humanas. ¿Cómo se usa, en la práctica? El sistema trabaja a partir de texto escrito, que luego convierte en audio. Para imitar el habla de una persona en particular, solamente precisa pocos segundos de grabación. Con esa base, puede generar frases cortas y oraciones largas, con la habilidad para insertar variaciones y sonar más natural en comparación con otros modelos.
¿Querés recibir más noticias de Tecno?
Suscribite acáEvolución de una versión presentada a comienzos del año pasado, VALL-E 2 puede producir “voces precisas y naturales con la voz exacta del hablante original, comparable al desempeño humano”, explican sus desarrolladores. En ese sentido, la tecnológica con sede central en Redmond asegura que VALL-E 2 es el primero de su tipo en lograr la “paridad” con el habla original.
¿Por qué Microsoft no lanza a VALL-E?
Tan realistas y convincentes son los resultados del clonador de voces que Microsoft se niega a un lanzamiento, al menos en esta instancia. ¿En qué se basa esta decisión? Citan “riesgos potenciales” asociados a los usos indebidos. Según comentaron, en este momento es considerado “puramente un proyecto de investigación”.
En concreto, las preocupaciones apuntan a una serie de usos non sanctos que podrían tener este tipo de clonadores. Una de las problemáticas se vincula a las falsificaciones profundas (deepfakes), a la difamación y a la desinformación. Ocurre que con sistemas como VALL-E es posible engañar a terceros haciéndoles creer que un audio proviene de una fuente confiable. Por mencionar un caso, hace algunos meses ciudadanos estadounidenses recibieron llamadas con la supuesta voz del presidente de aquel país, Joe Biden, incitándonos a abstenerse de votar en las elecciones primarias.
Leé también: Inteligencia artificial generativa: los miedos y las esperanzas que asoman
Por otra parte, los clonadores de voz expanden los riesgos en el ámbito de la seguridad informática. Esas tecnologías basadas en IA han propiciado lo que se conoce como “vishing”, un término que combina “voz” y “phishing” o suplantación de identidad. Básicamente, cibercriminales pueden usar clonadores para hacerse pasar por personas de confianza y así concretar sus ataques.
Otras tecnológicas, entre ellas ByteDace —dueño de TikTok— y Meta —patrón de Facebook e Instagram— también desarrollan clonadores de voces. OpenAI, célebres por su chatbot ChatGPT, tiene su propio generador de voces con IA denominado Voice Engine. Igual que Microsoft, esas tres firmas han decidido mantener bajo llave a sus desarrollos, en todos los casos citando los problemas y riesgos potenciales.