SARAH (sigla en inglés para Asistente Inteligente de Recursos para la Salud) es el nuevo chatbot de la OMS. Proporciona consejos de salud sobre cómo alimentarse bien, dejar de fumar, reducir el estrés.
El 2 de abril la Organización Mundial de la Salud (OMS) lanzó su chatbot llamado SARAH con el objetivo de que ayude a los usuarios. SARAH (sigla en inglés para Asistente Inteligente de Recursos para la Salud) proporciona consejos de salud en ocho idiomas diferentes (las 24 horas del día y los 7 días de la semana) sobre cómo alimentarse bien, dejar de fumar, reducir el estrés y otras preguntas que puedan tener sus millones de usuarios potenciales en el mundo.
Pero SARAH puede equivocarse. Por eso la OMS advierte que su chatbot puede ser impreciso, un término que algunos podrían entender como generoso si supieran que entre los errores de SARAH estuvo inventar una lista de nombres y direcciones falsas de clínicas inexistentes en la ciudad de San Francisco. El chatbot científico de Meta, Galáctica, inventó artículos académicos y por eso ya no está entre nosotros. En 2023, un abogado fue multado por presentar documentos llenos de opiniones judiciales falsas y citas legales inventadas por ChatGPT.
Y es justamente sobre este último punto que quería escribir esta semana, por qué y cómo es que las herramientas de inteligencia artificial no solo se equivocan sino que directamente inventan, teniendo lo que la industria ha dado en llamar "alucinaciones". Esta tendencia a inventar cosas, conocida como alucinación, es uno de los mayores obstáculos que impiden una adopción más generalizada de los chatbots. ¿Por qué lo hacen? ¿Por qué no estamos pudiendo solucionarlo?
Para entender por qué los grandes modelos de lenguaje alucinan, necesitamos entender cómo funcionan. Lo primero que hay que tener en cuenta es que inventar cosas es exactamente lo que estos modelos están diseñados para hacer. Cuando se le hace una pregunta a un chatbot, extrae su respuesta de un gran modelo de lenguaje que tiene detrás pero eso no lo hace como si buscara información en una base de datos o como si usara su propio Google. La información en un modelo de lenguaje se muestra cómo miles de millones de números y el chatbot usa estos números para calcular sus respuestas desde cero. Los grandes modelos de lenguaje generan texto prediciendo la siguiente palabra en una secuencia.
Para adivinar una palabra, el modelo simplemente ejecuta sus números. Calcula una puntuación para cada palabra en su vocabulario que refleja cuán probable es que esa palabra sea la siguiente en la secuencia en juego. La palabra con la mejor puntuación gana. En resumen, los grandes modelos de lenguaje son máquinas de casino haciendo estadísticas donde uno gira la manija y aparece una palabra.
La verdad es que lo que sale de un modelo como este es siempre una alucinación, solo que le decimos así cuando el resultado está equivocado. Eso si nos damos cuenta.
Y ahí surge otro problema. Porque los modelos de lenguaje son tan buenos en lo que hacen que lo que inventan parece correcto la mayoría de las veces. ¿Podemos controlar lo que generan los grandes modelos de lenguaje para que produzcan texto que esté garantizado que sea preciso? Estos modelos son demasiado complicados para que sus números puedan ser ajustados manualmente. Pero algunos investigadores creen que entrenarlos con aún más texto seguirá reduciendo su tasa de error. Esta es una tendencia que hemos visto a medida que los grandes modelos de lenguaje se han hecho más grandes y mejores.
Pero la verdad es que nada de lo que hagamos va a detener las alucinaciones completamente. Mientras los grandes modelos de lenguaje sean probabilísticos, habrá un elemento de azar en lo que producen. Y cuanto más precisos se vuelven estos modelos, más bajamos la guardia. Los estudios muestran que cuanto mejores son los chatbots, más probable es que las personas no detecten un error cuando ocurre. Ahí está lo más peligroso.