Guía ResearchED: evaluación desde los números y los datos

Recomiendo leer

La fortaleza de los números: un modelo de evaluación basada en datos

Empezamos una entrada que quizás nos va a sonar extraña. No estamos acostumbrados a pensar en la evaluación como una recogida de datos a gran escala para tomar decisiones, pero de eso trata precisamente esta entrada. El Department for Education (DfE) publicó en 2018 un informe llamado “Hacer que los datos funcionen” en el que emplazaba a la inspección educativa del Reino Unido a dar un giro de 180 grados al uso que daban a los datos. Como no podía resultar de otra forma, esto ha sido bastante polémico.
 
El autor de este capítulo, Rich Davies, trabaja para las Ark Schools, una red de escuelas de primaria y secundaria en contextos desfavorecidos. Su aproximación al uso de datos sigue tres axiomas muy interesantes:
  • La mejora de los resultados se basa en acciones basadas en información
  • Las acciones basadas en información se basan en análisis profundos
  • Los análisis profundos se basan en datos precisos
De estos tres axiomas se deducen los principios de actuación hacia la evaluación.

Diferentes evaluaciones para diferentes propósitos

La evaluación formativa y sumativa son dos herramientas fundamentalmente diferentes que no deberían ser utilizadas como intercambiables. Las evaluaciones formativas implican tareas que comprueban muy específicamente algún conocimiento o habilidad. Mientras tanto, las evaluaciones sumativas abarcan múltiples facetas y comprueban la retención y aplicación de un abanico amplio de conocimientos o habilidades a lo largo de un tiempo largo. Lo formativo ayuda a mostrar lo que cada estudiantes puede hacer a un nivel fino, mientras que lo sumativo muestra cómo progresa la generalidad de los estudiantes. Lo formativo informa los pasos siguientes del docente, mientras lo sumativa informa a la planificación a largo plazo.
 
Para el autor, la consecuencia de este último párrafo es clara: los datos formativos proporcionados al comprobar que un alumno puede realizar bien una actividad son muy importantes, pero codificar esto como un número es un sinsentido y puede que incluso lleve a equívocos. Esto implica que es básico formar a los docentes para que su práctica de evaluación cotidiana sea formativa, pero sin pedirles que recojan datos precisos de esta misma práctica.
 
Otra consecuencia es que la manera más consistente de comparar la comprensión de dos grupos de estudiantes sobre un tema requiere que se les pregunten exactamente las mismas preguntas. Establecer unos criterios, por ejemplo, “comparar dos fracciones”, no funciona. Una profesora puede pedir comparar 3/7 con 5/6 (algo que hacen bien (Wiliam, 2014) el 90% de los alumnos de 14 años); mientras que otra pide comparar 5/7 con 5/9 (lo que únicamente hacen bien el 15%). Para la red de escuelas en la que trabaja el autor, esto significa desarrollar e implementar evaluaciones sumativas idénticas para su red de centros.
 
Esta evaluación sumativa además tiene que reflejar una secuencia de progresión consistente a lo largo de un currículum común. 

Algunos resultados de su experiencia

Alinear el currículum, la evaluación formativa y la evaluación sumativa no implica que todos los docentes hacen lo mismo y al mismo tiempo. Implica que el mismo contenido será trabajado en cada centro a lo largo de cada curso, pero no en el mismo orden. La evaluación sumativa permite entonces pensar cómo utilizar mejor los recursos en un momento del currículum, pero no en un momento del año. 
 
Cuando todos los alumnos y alumnas de su red de centros participan en esta evaluación sumativa y hacen el mismo test bajo las mismas condiciones, habiendo trabajado el mismo contenido, se consigue una muestra de más de 3000 alumnos por tests. De ahí se desarrollan métodos estadísticos de comparación.
 
Sobre la estadística, es importante utilizar análisis que comprueben que la diferencia entre dos grupos es significativa, para evitar la sobre interpretación. Esta diferencia depende no sólo de las medias, sino de las desviaciones típicas (el rango) y el tamaño de la muestra de cada grupo. 
 
Por ejemplo, si comparamos estas dos clases:
  • Clase A: media=75, desviación=20, tamaño=10
  • Clase B: media=70, desviación=18, tamaño=12
Estamos por debajo del 50% de confianza para afirmar que la media de B es inferior a la media de A.
 
En cambio, si:
  • Clase A: media=75, desviación=10, tamaño=35
  • Clase B: media=70, desviación=9, tamaño=36
Podemos decir con una confianza del 97% de que la media de B es inferior a la media de A.
 
Muchos os estaréis preguntando por qué me pongo a hablar de estas cosas en el blog. Lo hago porque me parece necesario conocer unos rudimentos de estadística para poder analizar con rigor los datos. Algunas veces en las juntas de evaluación se estiman predictores (mi clase tiene peor media que la tuya, esta promoción es floja…) que están basados en percepciones y no en datos. El sesgo que, sin querer, tiene nuestra percepción es lo que podemos evitar utilizando medidas estadísticas como esta que nos propone este libro. Si esto sucediera además a escala nacional, los debates educativos irían encauzados en base a los datos y no a las percepciones. ¿Qué pasó durante el confinamiento? ¿Cómo ha afectado el COVID al desempeño académico? Se han escrito ríos de tinta basados en experiencias personales o grupales, percepciones e interpretaciones. Pero los datos fiables y su análisis riguroso será la mejor herramienta para planificar acciones de cara al futuro.
 
Pero la estadística no es la única interpretación incorrecta que debemos vigilar. Otro error frecuente que se comete es lo que técnicamente se llama “muestreo sobre la variable dependiente”. Se entiende con un ejemplo: sacar a los diez mejores en inglés para obtener una imagen del nivel de inglés. Sería más interesante preguntarse qué tienen en común también los diez peores alumnos. Por eso la toma de datos tiene que garantizar que los análisis abarquen el desempeño de los mejores, de los peores y de todos los que están entre medias.
 
Un peligro de confiar en los datos ciegamente es la ausencia de crítica a los datos. Crear una cultura de evaluación basada en datos también implica una cultura donde la crítica es aceptada y tomada en cuenta, y siempre se pone en duda la narrativa, por muy coherente que pueda ser, si no aporta pruebas objetivas. 

Conclusión: los datos para combatir el sesgo de confirmación

Si coges tu metodología o intervención favorita, la que te gustaría que se implementara en todo tu centro, y seleccionas diez estudiantes a los que aplicas tu intervención, probablemente mejoren. Hay que obtener una muestra representativa y considerar un grupo control para poder empezar. ¿Hay algún factor que pueda influir secundariamente? 
 
La única manera de combatir el sesgo de confirmación es convencer a los equipos directivos de testear las interpretaciones alternativas y hacer un esfuerzo realmente genuino en rebatir las hipótesis iniciales. Únicamente la práctica deliberada puede convertir en hábito estas actitudes. Os esperamos en siguientes entradas sobre este mismo libro.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s