Guía ResearchED: ¿evaluación formativa o sumativa?. Dylan Wiliam

Recomiendo leer

Sobre evaluación formativa, Dylan Wiliam 

Esta parte inicial corresponde al final de la entrada anterior. La he incluido para aportar coherencia a este nuevo post. Puedes o pasar directamente al epígrafe: “El sesgo en las evaluaciones”. También puedes consultar todas las entradas dedicadas a Dylan Wiliam  aquí

En esta entrada vamos a desarrollar algunas de las ideas más importantes en la evaluación – como la fiabilidad, la validez, etc. – también para mostrar cómo las formas correctas de pensar sobre estas ideas pueden conducir a discusiones mucho más productivas sobre cómo evaluar. El capítulo también tiene por objeto ayudar al lector a comprender que no existe un sistema de evaluación perfecto. Todo sistema de evaluación implica equilibrios, y lo que importa es si los equilibrios que se hacen son más o menos apropiados en situaciones particulares. De esta manera, la evaluación puede apoyar el aprendizaje, así como medirlo.

¿Qué queremos decir por evaluación?

Lee J. Cronbach (1971) propone la definición de “evaluación” como un procedimiento para hacer inferencias. Damos a los estudiantes cosas para hacer – como tareas, actividades, pruebas y así sucesivamente – y recogemos pruebas ese trabajo, de las cuales sacamos conclusiones. 

Definir una evaluación como un procedimiento para hacer inferencias también aclara que no tiene sentido utilizar los términos “formativo” y “sumativo” como tipos de evaluación, porque la misma evaluación puede ser utilizada de manera sumativa o formativa. Por ejemplo, una prueba de hechos numéricos como saber fechas nos puede aportar pruebas tanto de una conclusión sumativa (este niño sabe el 50% de las fechas) como de una formativa (este niño probablemente se beneficiaría de un repaso en los sucesos del siglo XVII).  Para el autor (uno de los mayores expertos del campo), no existe evaluación formativa o evaluación sumativa. Hay, en cambio, usos formativos y sumativos de la información de la evaluación.

Validez de la evaluación: una propiedad de las inferencias, no de las evaluaciones

La idea de que las evaluaciones son procedimientos para sacar conclusiones también ayuda a aclarar la idea de la validez de una evaluación. Tradicionalmente, la “validez” se ha definido como la medida en que una evaluación evalúa lo que pretende evaluar. Sin embargo, hay dos problemas con esta definición. 

  • El primero es que las evaluaciones no pretenden nada. La pretensión (si es que existe tal palabra) la realizan los seres humanos, y las evaluaciones se utilizan a menudo de maneras que nunca fueron previstas o incluso admitidas por los encargados de desarrollarlas. Por ejemplo, la prueba de acceso a la universidad no fue jamás concebida para deducir lo bueno que es un colegio.

La nota media de un estudiante en la EBAU puede proporcionar alguna información sobre el grado de rendimiento de ese estudiante en sus cursos de bachillerato, pero proporciona muy poca información sobre la calidad de la educación recibida por ese estudiante, ya que los factores más importantes en las notas de un estudiante no tienen nada que ver con la escuela, sino más bien con las características personales -y los antecedentes sociales- del estudiante (Wiliam, 2012).

  • El segundo problema de definir la validez como una propiedad de un examen u otra forma de evaluación es que una evaluación puede ser válida en algunas circunstancias pero no en otras. Si tuviéramos un examen de problemas de aritmética con una alta demanda de comprensión lectura, ¿qué podemos concluir de la puntuación de un estudiante en el examen? 

Si algunos de los estudiantes que hacen el test son malos lectores, no sabemos lo que significa una puntuación baja. Puede ser que el estudiante no haya sido capaz de hacer la aritmética, pero puede significar que el estudiante era capaz de hacer la aritmética, pero no pudo comprender las preguntas lo suficientemente bien.

Por eso hay ahora un acuerdo generalizado entre los investigadores de evaluación de que la validez no es una propiedad de las evaluaciones sino de las inferencias. 

Que una evaluación en particular pueda apoyar inferencias válidas dependerá de las circunstancias en las que se administre la evaluación. Y esto nos lleva a un principio muy importante de la evaluación. Cuando damos a los estudiantes una evaluación, casi nunca nos interesamos en lo bien que lo hizo un estudiante en esa prueba. Estamos interesados en cómo los resultados de la prueba nos permiten sacar conclusiones sobre cosas que no estaban en la prueba. 

Así que cuando alguien pregunta: “¿Es válido este test?”,  para Dylan Wiliam la mejor respuesta es: “Dime lo que te propones concluir sobre un estudiante en base al resultado de su test, y te diré si esa conclusión está justificada”. 

El sesgo en las evaluaciones

El enfoque en las inferencias, más que en las evaluaciones, también ayuda a clarificar el tema del sesgo en la evaluación. El sesgo se produce cuando concluimos que un resultado de evaluación particular tiene un significado particular. El sesgo, como la validez, es una propiedad de las inferencias, no de las evaluaciones.
Hay dos razones principales por las que los resultados de las evaluaciones pueden no apoyar las conclusiones que queremos sacar. La primera es que la evaluación no evalúa el tipo de cosas sobre las que queremos hacer inferencias – intuitivamente, la evaluación es “demasiado pequeña”. La segunda es que la evaluación evalúa cosas que no son relevantes para las cosas sobre las que queremos hacer inferencias – la evaluación es, en cierto sentido, “demasiado grande”.

1. Evaluación demasiado pequeña: no están bien representadas las cosas que deseamos evaluar.

El término técnico para esto es “subrepresentación del constructo”. La idea es que tenemos un constructo de interés – digamos la evaluación del desempeño en ciencias – y la evaluación no cubre todas las cosas que necesitaríamos saber sobre un estudiante para sacar conclusiones.
Por ejemplo, si definimos “desempeño en ciencias” incluyendo habilidades prácticas, entonces nuestra evaluación debe incluir evaluaciones prácticas o de lo contrario no podemos estar seguros de que el rendimiento de un estudiante en una evaluación escrita sea una buena guía para sus habilidades prácticas.
Cuando las escuelas están bajo presión para aumentar las puntuaciones de los exámenes, reducir el plan de estudios para centrarse sólo en las cosas de las que se examinan hace más fácil aumentar el rendimiento de los estudiantes en las cosas que se miden. Esto es un poco como poner cubitos de hielo en la boca de un paciente con fiebre. Cuando se mide la temperatura del paciente con un termómetro en la boca, se obtiene una lectura más baja en el termómetro, pero no se ha abordado el problema subyacente, que es la fiebre. Has cambiado el indicador, pero no el aprendizaje.

2. Evaluaciones demasiado grandes: con una variación irrelevante para el constructo.

Siguiendo el ejemplo de los problemas matemáticos, cuando las puntuaciones varían de acuerdo al desempeño en matemáticas, esto es relevante para el constructo – después de todo, esto es lo que estamos tratando de evaluar. Pero la variación en las puntuaciones causada por una diferente comprensión lectora es irrelevante para el constructo: las diferencias en la habilidad de lectura no deberían afectar la puntuación de un estudiante en un examen de aritmética si lo que queremos medir es su desempeño matemático.

La importancia de la definición de constructo

Para entender bien la manera en la que el constructo (es decir, qué queremos y estamos evaluando) puede ayudar a clarificar nuestro pensamiento, es útil considerar cómo podríamos evaluar el conocimiento de la historia de un estudiante, y en particular, si podemos evaluar el conocimiento de la historia de nuestros estudiantes sólo mediante el uso de tests de opción múltiple.

Algunas personas dicen que sí y otras que no, y este debate parece ser un debate sobre la idoneidad de los diferentes métodos de evaluación; pero en realidad, las personas que están en diferentes bandos de este argumento tienen diferentes creencias sobre lo que significa ser bueno en la historia – es decir, su constructo.

Para quienes piensan que la historia se basa en hechos y fechas, las preguntas de opción múltiple son bastante eficaces porque pueden evaluar muchos hechos y fechas en un período de tiempo razonablemente corto. Además, consideran que las preguntas de ensayo son inapropiadas porque, si bien parte de la variación en las puntuaciones de esas preguntas se deberá a diferencias en el conocimiento histórico, otra parte se deberá a diferencias en la capacidad de escritura, e incluso en la velocidad de la escritura a mano. En otras palabras, considerará que las puntuaciones en las evaluaciones de historia que impliquen la escritura de ensayos incorporan alguna variación no relevante para la construcción (los que escriben mejor lo hacen mejor).

Por otra parte, los que piensan que ser bueno en historia es más que conocer hechos y fechas y también incluye cosas como ser capaz de construir argumentos históricos, considerarán que las evaluaciones compuestas enteramente por preguntas de opción múltiple representan insuficientemente su constructo de lo que es ser bueno en historia. Los estudiantes que son mejores en la construcción de argumentos históricos no lo harán mejor que aquellos que no lo son, si ambos grupos lo hacen igualmente bien en el test de hechos y las fechas.

Lo importante aquí es que el debate sobre cómo evaluar la historia parece ser un debate sobre los métodos de evaluación, pero en realidad es mucho más profundo. El debate sale a la superficie cuando hablamos de cómo evaluar la historia, pero en realidad es un argumento sobre lo que significa ser bueno en la historia – es un argumento sobre cómo debe definirse la construcción del conocimiento histórico.

Esto es importante, porque si el constructo se ha definido correctamente, diferentes personas deberían ponerse de acuerdo sobre si un conjunto particular de evaluaciones muestra adecuadamente el dominio de interés. En otras palabras, con una buena definición del constructo, el diseño de la evaluación es una cuestión en gran medida técnica. Sin embargo, si el constructo no está bien definido, entonces el diseño de la evaluación se convierte en un proceso cargado de valor. En particular, los valores de las personas que diseñan la evaluación desempeñan un papel en el diseño de la evaluación.

Sin embargo, algunas fuentes de varianza no pertinentes al constructo son aleatorias. Los estudiantes tienen días buenos y días malos, por lo que el rendimiento en una prueba en una ocasión particular podría no ser típico de lo que ese estudiante lograría en otras ocasiones. 

La fiabilidad de la evaluación 

Tradicionalmente, factores como éstos se han considerado cuestiones de fiabilidad, y se ha hablado de la necesidad de que las evaluaciones sean “válidas y fiables”, lo que implica que la validez y la fiabilidad son propiedades separadas de las evaluaciones. Sin embargo, esa perspectiva tiene poco sentido porque si los resultados de una evaluación no son fiables, entonces no pueden apoyar inferencias válidas. Si la puntuación que un estudiante obtiene mañana es muy diferente de la puntuación que obtuvo hoy, entonces es poco probable que cualquier conclusión que se saque sobre las capacidades de ese estudiante sobre la base de la puntuación de la prueba de hoy sea válida. La fiabilidad es un requisito previo para la validez.

Aumentar la fiabilidad -por ejemplo, normalizando las evaluaciones, dando a los calificadores directrices estrictas de calificación y centrándose sólo en los aspectos de una asignatura que son fáciles de evaluar- puede reducir la varianza no pertinente para el constructo, pero sólo a expensas de reducir la representación del constructo (o, en otras palabras, aumentar la cantidad de subrepresentación del constructo). 

En pocas palabras, estamos dando prioridad a la reducción de algunas amenazas a la validez a expensas de aumentar otras. Durante un tiempo de evaluación determinado, podemos evaluar ampliamente y obtener alguna información no particularmente fiable sobre un gran número de aspectos de un tema, o podemos centrar nuestra atención en aspectos mucho más limitados de un tema y obtener información mucho más fiable. Y por supuesto, no hay una respuesta correcta aquí. Lo que importa es si el compromiso entre la fiabilidad y otros aspectos de la validez es más o menos apropiado para la situación particular.

Este último punto es particularmente importante porque a menudo se supone que una mayor fiabilidad es mejor, pero a menos que reduzcamos la evaluación (y por lo tanto aumentemos la subrepresentación del constructo) la única manera de hacer una evaluación más fiable es hacerla más larga. Además, los aumentos en el tiempo de prueba necesarios para que las evaluaciones sean más fiables son sustanciales. Por ejemplo, para reducir el número de estudiantes que obtienen la calificación equivocada en una asignatura del GCSE de 40% a 25%, se requeriría cuadruplicar la duración de los exámenes en cualquier asignatura, algo que no parece una buena idea.

La fiabilidad no lo es todo, pero es importante

El punto de partida para estimar la fiabilidad de una evaluación es asumir que un estudiante tiene una verdadera puntuación en esa evaluación. Cuando la gente oye el término “puntuación verdadera”, asume que esto significa asumir que la habilidad es fija, pero no es así. La puntuación real es simplemente el promedio a largo plazo que un estudiante obtendría en muchas realizaciones de una prueba, asumiendo que no se produce ningún aprendizaje.

Por ejemplo, imaginemos una prueba de ortografía que consiste en escribir correctamente 1000 palabras. Si el estudiante sabe realmente cómo deletrear 600 de las 1000 palabras del banco de palabras, su verdadera puntuación es del 60%. Podríamos por supuesto encontrar el un dato todavía más preciso preguntándole las 1000 palabras del banco, pero tenemos mejores cosas que hacer con nuestro (y su) tiempo. La fiabilidad de nuestra prueba es simplemente una indicación de lo bueno que es el resultado de la prueba como una guía para la competencia del estudiante en todo el banco de palabras. 

Supongamos que le pedimos a una alumna que deletree 20 de las 1000 palabras del banco de palabras, elegidas al azar, en cinco ocasiones en el curso del día, y sus resultados son 15, 17, 14, 15 y 14. En promedio, obtiene 15 de 20 (es decir, el 75%), así que nuestra mejor estimación es que sabe 750 de las 1000 palabras. La desviación típica de este ejemplo es 1,2.

Si, por otro lado, los resultados hubieran sido 20, 12, 17, 10 y 16, su puntuación media seguiría siendo 15 de 20, por lo que nuestra mejor suposición seguiría siendo que sabe 750 de las 1000 palabras, pero ahora estaríamos mucho menos seguros de que nuestras muestras fueran una buena guía para todo el banco porque las puntuaciones varían mucho. 

La desviación típica en este caso es de 4,0, indicando que estas muestras no son una buena guía para saber cómo de bien escribe las 1000 palabras.

En una distribución normal, el 68% de los datos se encuentran dentro de una desviación estándar de la media y el 96% dentro de dos desviaciones estándar de la media. Por lo tanto, si la desviación estándar de los errores – a menudo llamada error estándar de medición o SEM – para todos los estudiantes fue de 1,2, entonces para aproximadamente dos tercios de los estudiantes de un grupo, su puntuación en cualquier ocasión de evaluación estará como mucho 1,2 puntos por encima o por debajo de su verdadera puntuación, y casi todos (96%, o 24 de 25) obtendrán una puntuación 2,4 puntos por encima o por debajo de su verdadera puntuación.

Sin embargo, si el SEM es de 4 puntos, entonces para dos tercios de los estudiantes, su puntuación real estará 4 puntos por encima o por debajo de la puntuación real, y para el 96% de los estudiantes hasta 8 puntos por encima o por debajo. Además, por cada clase de 25, habrá un alumno que obtenga una puntuación que sea más de 8 puntos diferente de su verdadera puntuación. Desafortunadamente, no sabremos qué estudiante es, ni si el puntaje que obtuvo fue muy alto o muy bajo.

La relación entre el índice de fiabilidad, r, y el error estándar de medición (SEM) viene dada por la fórmula SEM = SD × √(1 – r) donde SD es la desviación típica de las puntuaciones de todos los estudiantes que realizan la prueba. Cuando r es cero, el SEM es igual al SD de todas las puntuaciones, por lo que la prueba no proporciona ninguna información. Cuando r es 1, entonces el SEM es cero, por lo que no hay incertidumbre sobre el resultado del estudiante.

No necesitamos necesariamente pruebas más fiables. Lo que sí necesitamos es ser conscientes de las limitaciones de nuestras evaluaciones para no dar más peso al resultado de una evaluación de lo que su fiabilidad garantizaría.

Esto es particularmente importante cuando se observan las puntuaciones de cambio – el cambio en la puntuación de un estudiante durante un período de tiempo – porque estamos, en efecto, restando un número poco fiable de otro número poco fiable. El cambio es lo que más nos interesa. Tenemos que medir el cambio en el desempeño, porque es lo más importante en educación.

Las principales conclusiones de esta entrada son:

No existe una prueba válida. No existe tal evaluación formativa o una evaluación sumativa, porque formativa y sumativa son propiedades de las inferencias, no de las evaluaciones.

Hay dos amenazas principales a la validez: la subrepresentación del constructo y la varianza irrelevante del constructo. Algunas evaluaciones son, en cierto sentido, demasiado pequeñas. No representan todo lo que se quiere evaluar. Algunas evaluaciones, por otra parte, son demasiado grandes, los resultados de los estudiantes también se ven afectados por cosas que no están relacionadas con las cosas que queremos evaluar. 

Los argumentos sobre los métodos de evaluación son a menudo (¿normalmente?) argumentos sobre constructos. Cuando a las personas les resulta difícil ponerse de acuerdo sobre si un determinado método de evaluación es apropiado, a menudo, y tal vez habitualmente, se debe a que no están de acuerdo sobre lo que debe evaluarse.

La fiabilidad es el componente aleatorio de la varianza no pertinente para los constructos. Cuando el rendimiento de los estudiantes varía de una ocasión a otra, cuando al mismo trabajo se le dan diferentes notas por diferentes correctores, al preguntar selección particular de preguntas, hay una variación aleatoria en las notas que es irrelevante para el constructo de interés.

Las puntuaciones de cambio son mucho menos fiables que las puntuaciones de estado. Si bien necesitamos saber algo de las puntuaciones de cambio -después de todo, queremos saber si nuestros estudiantes están mejorando- debemos ser especialmente cautelosos en la interpretación de las puntuaciones de cambio, porque son el resultado de restar un número poco fiable de otro.

Más fiabilidad no es necesariamente mejor. Las evaluaciones tienen que hacerse mucho más largas para tener un impacto significativo en la fiabilidad, quitándole tiempo a la enseñanza. Una fiabilidad relativamente baja puede ser óptima, siempre que sepamos cuán fiable es una evaluación y, por lo tanto, cuánto peso hay que darle.

Toda evaluación implica compensaciones. El concepto más importante en la educación es el coste/oportunidad: el tiempo que se dedica a evaluar a los estudiantes es tiempo que nosotros (y ellos) no tienen para otras cosas. Lo fundamental en la evaluación es tener claro por qué se está evaluando, qué conclusiones se quieren sacar y en qué medida las pruebas apoyan las conclusiones que se quieren sacar. Tened en cuenta esas tres cosas y no os equivocarán equivocaréis mucho. Os esperamos en las siguientes entradas.                    

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s