La inteligencia artificial como tutor educativo: tres resultados optimistas
La IA generativa, cuando se implementa de manera cuidadosa y con el apoyo de los docentes, puede funcionar eficazmente como un tutor virtual.
En las últimas semanas han salido publicados resultados preliminares de tres estudios enfocados en entender el efecto de la inteligencia artificial en el aprendizaje a nivel escolar y liceal. A continuación resumo los estudios, pero el resultado principal que los atraviesa a los tres es que la utilización de la inteligencia artificial ("el chat") como tutor, tiene un potencial enorme en términos de mejorar el aprendizaje, especialmente para los más desfavorecidos.
En primer lugar, una intervención en Nigeria consistió en asistir durante seis semanas entre junio y julio de 2024 a un conjunto aleatorio de estudiantes con inteligencia artificial para sus estudios. Es decir, se les proporcionó acceso a un chat y tutoreaje sobre cómo utilizarlo. Después de la intervención, los estudiantes realizaron un examen escrito para evaluar su desempeño en tres áreas clave: inglés (el enfoque principal del piloto), conocimiento sobre IA y habilidades digitales.
Los estudiantes asignados al azar para participar en el programa superaron significativamente a sus compañeros en todas las áreas, incluido el inglés, que era el objetivo principal. Estos hallazgos proporcionan evidencia sólida de que la IA generativa, cuando se implementa de manera cuidadosa y con el apoyo de los docentes, puede funcionar eficazmente como un tutor virtual.
Además, los beneficios trascendieron el alcance del programa. Los estudiantes que participaron también obtuvieron mejores resultados en sus exámenes curriculares de fin de año, los cuales cubrieron temas más allá de los abordados en la intervención de seis semanas. Esto sugiere que los estudiantes que aprendieron a interactuar eficazmente con la IA pudieron aprovechar estas habilidades para explorar y dominar otros temas de manera independiente.
El programa benefició a todos los estudiantes, no solo a los de mejor desempeño. Las niñas, que inicialmente estaban rezagadas con respecto a los niños, parecieron beneficiarse aún más de la intervención, lo que resalta su potencial para reducir las brechas de género en el aprendizaje.
En segundo lugar, se realizó una intervención similar en una escuela secundaria italiana evaluando el impacto de GPT-4 como tutor de tareas. El grupo intervenido usó sesiones interactivas de GPT-4, por seis a ocho semanas, en tanto el grupo de control realizó tareas adicionales asignadas por el docente. Se trabajó con grupos de 16 años (tercero) y de 18 años (quinto). El grupo de tratamiento interactuó con GPT-4 a través de una plataforma en línea que adaptaba las tareas a las directrices del profesor. Las sesiones de GPT-4 incluían explicaciones, retroalimentación en tiempo real y correcciones, diseñadas para alinearse con los objetivos pedagógicos del curso. Los estudiantes podían acceder a la plataforma desde dispositivos personales fuera del horario escolar.
Como resultados principales, el grupo de tratamiento mostró mejoras significativas en gramática, con diferencias más pronunciadas en estudiantes de tercer año. Las mejoras fueron más evidentes en estudiantes con habilidades iniciales más bajas, sugiriendo que GPT-4 es especialmente beneficioso para quienes necesitan más apoyo. En quinto año, las mejoras no fueron significativas, posiblemente debido a la naturaleza subjetiva de las tareas de ensayo.
Además, los estudiantes del grupo de tratamiento participaron más activamente, escribiendo más palabras y revisando iterativamente sus respuestas con ayuda de GPT-4. El 93 % de los estudiantes del grupo de tratamiento encontró útil al menos un aspecto del tutor. Los aspectos más valorados incluyeron las explicaciones claras (63 %), la retroalimentación inmediata (57 %) y la guía paso a paso (45 %). Por otro lado, las tareas con GPT-4 fueron calificadas como más interesantes y útiles que las tradicionales.
Vale destacar que GPT-4 tuvo una baja tasa de errores (menos del 1 % en 1.549 interacciones), lo que lo hace confiable para uso educativo. Los errores detectados incluyeron inconsistencias menores en respuestas, pero no se observaron problemas graves.
Como efecto en la equidad educativa, se encontró que los estudiantes del grupo de tratamiento reportaron mayor confianza en sus recursos para completar tareas. De hecho, las ganancias de aprendizaje fueron más altas entre estudiantes con habilidades iniciales más bajas, lo que sugiere que la herramienta puede reducir brechas de rendimiento académico. Por otro lado, no se observaron efectos adversos significativos como dependencia excesiva del modelo o disminución de la confianza en las habilidades propias.
El estudio para Italia concluye que GPT-4, configurado adecuadamente, puede funcionar como un tutor virtual eficaz para tareas escolares, ofreciendo beneficios similares a los de tutorías personalizadas, pero de manera escalable y accesible. La herramienta es especialmente útil en contextos con recursos limitados, donde los tutores tradicionales no son una opción viable. Como limitaciones, se señala que la intervención fue de corta duración (6-8 semanas), lo que limita la posibilidad de observar impactos a largo plazo, y que las tareas se limitaron al inglés, dejando abierta la posibilidad de aplicar el modelo a otras materias.
En tercer lugar, se realizó una serie de intervenciones controladas en los Estados Unidos cubriendo más de 1.800 estudiantes enfocado en el aprendizaje de matemática. El estudio explora cómo las explicaciones generadas por LLMs, como GPT-4, afectan el aprendizaje de matemáticas en estudiantes de nivel secundaria. La intervención consistió en dar tres tipos de feedback a los estudiantes en pruebas de matemática: proporcionarles la respuesta correcta; proporcionarles la respuesta correcta junto con una explicación estándar generada por el chat; proporcionarles la respuesta correcta junto con una explicación específica dada por un prompt al chat.
Como resultado, los participantes que recibieron explicaciones detalladas lograron mejores resultados en las pruebas que aquellos que solo vieron las respuestas correctas. Los mayores beneficios se observaron cuando los participantes intentaron resolver los problemas antes de consultar las explicaciones.
Las explicaciones ayudaron a los participantes a adoptar estrategias más eficaces, como el uso de fórmulas o métodos recomendados. El aprendizaje fue más profundo en quienes usaron las estrategias propuestas, en comparación con aquellos que simplemente adivinaron. Además, los participantes que recibieron explicaciones reportaron haber aprendido más y percibieron los problemas como menos difíciles, en comparación con aquellos que solo vieron respuestas.
El estudio concluye que existe un gran potencial educativo de la inteligencia artificial: Las explicaciones generadas por LLMs pueden ser herramientas efectivas para el aprendizaje de matemáticas, fomentando la adopción de estrategias correctas y mejorando la confianza de los estudiantes. Además, se concluye que la inteligencia artificial tiene un potencial significativo como tutores personalizados, siempre que se utilicen con cautela y se combinen con supervisión humana. Sin embargo, el diseño de las interacciones y la corrección de errores son esenciales para evitar resultados negativos.