ChatGPT lanza el esperado y polémico modo de voz: ¿qué cambia en el chatbot?

La nueva modalidad en el sistema de OpenAI inicia su recorrido entre un grupo selecto de usuarios. Todo lo que hay que saber antes del despliegue global.

31 de julio 2024, 10:00hs

OpenAI es el emblema de la inteligencia artificial generativa. (Foto: AFP/Sebastien Bozon)

En mayo, OpenAI sorprendió al anunciar que ChatGPT incorporaría un modo de voz avanzado para interacciones verbales. Esa función, que generó entusiasmo y también polémicas, ahora inicia su despliegue entre los usuarios. Eso sí: los primeros pasos se dan entre un grupo selecto de probadores, que además son suscriptores de la versión Plus del chatbot.

ChatGPT lanza su función más humana: habla y escucha mejor que antes

Durante la presentación de GPT-4o, en mayo, la organización que dirige Sam Altman había anunciado la pronta llegada de un modo de voz avanzado para ChatGPT, con capacidades superiores a las funciones actuales del chatbot que permiten intercambios mediante comandos verbales.

Video Placeholder En esta demostración, el modelo de lenguaje enseña matemáticas. (Video: OpenAI)

Entre las nuevas virtudes del modo de voz se destaca la posibilidad de interrumpir la charla, tal como ocurre habitualmente en las conversaciones entre humanos. Además, OpenAI asegura que el sistema reconoce emociones.

Leé también: Qué es SearchGPT, el “puñal” que OpenAI quiere clavarle a Google

Para desprevenidos, hasta ahora la principal forma para interactuar con el modelo de inteligencia artificial generativa ha sido el texto. Con este paso, ChatGPT sumará características que lo emparentan con los asistentes virtuales, como Siri de Apple, Alexa de Amazon o Assistant de Google.

Taya Christianson, vocera de OpenAI, dijo el nuevo modo de ChatGPT solo usará cuatro voces preestablecidas que creó con actores contratados para tal fin. Además, explicó que el chatbot no podrá imitar las voces de otras personas, tanto de individuos como de figuras públicas.

¿Cuándo se lanza el modo de voz en ChatGPT?

De acuerdo a la representante de OpenAI, el nuevo modo a todos los usuarios de ChatGPT Plus en el otoño del hemisferio norte. En tanto, se espera que, luego del período de pruebas cerrado, el lanzamiento general se realice hacia el último trimestre del año en curso. Cuando eso ocurra, será una opción exclusiva para los suscriptores.

Modo de voz en ChatGPT, un despliegue con polémicas

Una de las controversias que generó el anuncio de OpenAI fue inesperada y cobró gran notoriedad, porque las críticas provinieron de una celebridad de Hollywood. ¿Qué pasó? Cuando la organización estadounidense enseñó las nuevas capacidades del chatbot, una de las voces se parecía —demasiado— a la de Scarlett Johansson. Cabe recordar que la actriz interpretó a un asistente virtual en Her, una película del año 2013.

La voz similar a la de Johansson había sido incluida en el nuevo modelo GPT-4o. (Fotos: AP/Michael Dwyer – AP/Joel C Ryan – TN Tecno)

La mismísima Johansson puso el grito en el cielo y acusó a OpenAI de copiar deliberadamente su voz para una de las “personalidades” de ChatGPT, que había sido bautizada como Sky. El propio Sam Altman había publicado un tuit, en la previa, con una simple palabra: “Her”. La actriz reveló detalles: contó que el empresario le había propuesto incluir su voz para una de las versiones femeninas y que ella había rechazado la oferta. Tras el anuncio de mayo y la presentación de una demanda, Sky fue dada de baja.

Leé también: Quién es quién en IA generativa: radiografía de los planes de OpenAI, Google, Meta, Microsoft y Apple

Amén del choque de fuerzas entre OpenAI y Scarlett Johansson, el modo de voz de ChatGPT provocó otras discusiones. En primera instancia, el lanzamiento estaba previsto para junio, pero los responsables del chatbot dijeron que necesitaban más tiempo para pulir el funcionamiento y corregir variables relacionadas con la seguridad de la función.

Ahora, Christianson afirma que testearon las capacidades del modelo de voz con más de 100 miembros externos que conforman un “equipo rojo”, un grupo que en un entorno controlado intenta atacar al sistema, forzándolo, para encontrar debilidades y corregirlas antes del lanzamiento.