Ver lo que estás viendo: el modo de voz avanzado de ChatGPT ahora puede analizar la información en una pantalla compartida o lo que captura la cámara

La Nación, Argentina 13 de diciembre de 2024

Joaquin Phoenix protagoniza la película Her (Archivo)

OpenAI ha anunciado una nueva característica para el Modo de voz avanzado de ChatGPT , que va a integrar el procesamiento de video en tiempo real , lo que permitirá a su chatbot ofrecer respuestas más concretas a las solicitudes de los usuarios según su contexto y lo que pueda identificar a través de las cámaras del dispositivo.

La compañía anunció hace una semana que inauguraría una serie de 12 días de novedades, en la que ya ha anunciado el lanzamiento del modelo de Inteligencia Artificial (IA) o1, un nuevo nivel de ChatGPT Pro y la disponibilidad general de la herramienta de video Sora .

En estas sesiones, también ha hecho referencia al Modo de voz avanzado, una funcionalidad que anunció con la presentación de su modelo GPT-4o y que permite elegir entre una serie de voces para personalizar la interacción con el chatbot .

Si bien esta característica se iba a probar con un grupo de usuarios en julio, OpenAI anunció que retrasaba su lanzamiento para seguir probando su fiabilidad. Así, fue en septiembre cuando finalmente la empezó a implementar para los usuarios suscritos a la versión Plus y Teams, aunque quedaron excluidos los de la Unión Europea, Suiza, Islandia, Liechtenstein y Noruega .

Video para charlar como si fuera una persona

La compañía ahora ha anunciado la incorporación de la entrada de video en el Modo de voz avanzado, lo que permitirá al modelo multimodal procesar en tiempo real las imágenes, así como acceder a las aplicaciones que se estén utilizando en el dispositivo mediante la opción ‘Share Screen’ o ‘Compartir pantalla’.

Como resultado de esta integración, "las conversaciones con Modo de voz avanzado tendrán un ritmo mucho más natural" y podrá profundizar en aspectos como el ritmo o el tono de la voz en más de 50 idiomas, según han explicado los responsables de la firma en un video.

Gracias a esta funcionalidad, que se puede utilizar bien con la cámara delantera o bien con la trasera, ChatGPT podrá indicar a una persona cuáles son los pasos que debe dar para preparar un café con los elementos que identifique y que estén situados frente al objetivo.

Asimismo, con ‘Compartir Pantalla’, el usuario podrá solicitar al chatbot ayuda para ejecutar acciones. Por ejemplo, para responder a un mensaje desde la aplicación de Mensajes del smartphone, de modo que le dará las indicaciones pertinentes para contestar con el tono elegido.

Santa Claus en ChatGPT

OpenAI ha confirmado que llevará esta función a Europa "tan pronto como pueda" y que ofrecerá acceso anticipado a suscriptores de los planes Enterprise y Edu antes de 2025. Asimismo, ha anunciado que ha personalizado el Modo de voz avanzado de ChatGPT con un modo Papá Noel con motivo de las fiestas de Navidad.

El modo Santa Claus se puede activar durante todo el mes de diciembre pulsando sobre el icono de un copo de nieve, que aparece junto a la barra de mensajes, o bien a través de la Configuración de voz. Esta característica funciona en aplicaciones móviles, iOS, Android y la versión web de ChatGPT.