Recomiendo leer
Tweet

La evaluación

La tarea de un docente, en palabras de Dylan Wiliam, es crear un entorno en el que la implicación de los alumnos en el aprendizaje suceda en una dirección definida. Es lo mismo que decir que nosotros, como profesores, deberíamos no solo enfocarnos en “transmitir conocimiento” o “facilitar el aprendizaje”; sino también en crear un ecosistema como el que nos propone Tom Sherrington en su “Learning Rainforest” (libro ya comentado aquí). Un ecosistema donde la enseñanza y el aprendizaje fluyen, aunque permanezcan enfocadas.

Podemos empezar por preguntarnos, individualmente, como departamento o como escuela:

¿Qué significa evaluar, calificar y corregir?

¿Qué estrategias funcionan y fallan en estos ámbitos?

¿Qué te provoca entusiasmo y ansiedad cuando piensas en esto?

Algunas sugerencias para la reflexión

1. El feedback

Winne y Butler [1] nos proponen una clave habitual en el blog: la retroalimentación o feedback. ¿Qué es? La “información con la que un estudiante puede confirmar, añadir, corregir, afinar o reestructurar su memoria a largo plazo. No importa si esa información es conocimiento de una materia, creencias sobre uno mismo o su tarea, estrategias cognitivas o meta-cognitivas. Hattie y Timperley (2007) definen al feedback como la respuesta de un docente al desempeño en una actividad, siendo por tanto un proceso secundario dependiente de una tarea. Su papel, por tanto, es vital para atajar confusiones y equívocos frecuentes. Gielan et al. (2010), es fundamental para el feedback el conocimiento del docente sobre su materia, así como su disposición: empatía, compasión y la forma de expresarse que más efectiva sea en movilizar al alumno.

Sin embargo, algunas investigaciones ponen en duda la eficacia del feedback individual y originado en el profesor. Así lo demuestra un reciente estudio de Evidence Based Education (Kime, 2018) en el que profesores de inglés sustituyeron la corrección escrita por un feedback verbal y grupal. Se ahorró un tiempo de 4,3 horas a la semana en corrección, mientras que la variación entre los resultados de ambas técnicas se demostró estadísticamente insignificante.

Un aspecto controvertido de esta idea es que el feedback verbal y grupal puede ser peor para los alumnos con dificultades. Es un tema a debate, pero que mostramos para dejar claro que en el tema del feedback mucho se está investigando en la actualidad.

2. La corrección masiva de actividades

Corregir y dar feedback son métodos que sin duda se confunden y entran en conflicto a menudo. ¿Debería el feedback en parejas y en grupos ser utilizado para la evaluación formativa, y la corrección del profesor para la sumativa? ¿Cuántos momentos de evaluación formativa y sumativa debe haber a lo largo de un curso escolar? Estas ideas son las que iremos comentando a lo largo de las entradas dedicadas al libro.

3. La calificación (un tema ya discutido aquí)

El conflicto alrededor del uso de notas en la evaluación formativa y sumativa tiene un buen ejemplo en el trabajo de Butler (1988) que concluía que el feedback acompañado de notas numéricas desviaba la atención del feedback y por tanto del aprendizaje. McMillan et al. (2002) también contribuyeron defendiendo que las notas numéricas son increíblemente poco precisas y condicionadas por otros factores. La propia Ruth Butler afirma que las notas numéricas aumentan el ego de los mejores pero impiden mejorar a los que tienen más dificultades, y en muchos casos les hace autosignarse la etiqueta de “fracasado”.

Otros autores como Jensen y Barron (2014) proponen que al final de un periodo lectivo, después de muchas evaluaciones de otro tipo, un valor numérico final puede ayudar como “punto de chequeo” a los alumnos, familias y escuelas.

Estas referencias debatidas, ampliamente estudiadas y sin embargo conflictivas pueden frustrarnos como educadores. La cuestión principal es: ¿cuál es el objetivo de dar feedback a este alumno de esta manera, o de asignarle esta nota? ¿Ayudará a su aprendizaje? La clave, a medida que acumulamos evidencias, es asegurar el propósito del feedback.

Por eso, lo mejor que podemos hacer como educadores es continuar en la búsqueda de soluciones que no son solo mejores para el progreso de nuestros alumnos y alumnas, sino que también colaboran en el bienestar y la carga de trabajo de nuestro personal. A eso dedicaremos las entradas de este libro.

Sobre evaluación formativa, Dylan Wiliam

Comenzamos mi capítulo favorito de este libro, escrito por un gran experto en la materia que tiene uno de los libros favoritos del blog. Podéis consultar todas las entradas dedicadas a él aquí. Es un capítulo impresionante y profundo que os va a provocar la reflexión, y por eso lo he divido en dos entradas. Empezamos aquí y continuaremos en la siguiente.

El autor comienza explicando que, si bien hay áreas en las que las personas razonables pueden estar en desacuerdo, la evaluación es un área en la que se puede estar no solo fuera de la corriente principal, sino de hecho, en opiniones demostradas como incorrectas.

En esta entrada vamos a desarrollar algunas de las ideas más importantes en la evaluación – como la fiabilidad, la validez, etc. – también para mostrar cómo las formas correctas de pensar sobre estas ideas pueden conducir a discusiones mucho más productivas sobre cómo evaluar. El capítulo también tiene por objeto ayudar al lector a comprender que no existe un sistema de evaluación perfecto. Todo sistema de evaluación implica equilibrios, y lo que importa es si los equilibrios que se hacen son más o menos apropiados en situaciones particulares. De esta manera, la evaluación puede apoyar el aprendizaje, así como medirlo.

¿Qué queremos decir por evaluación?

Lee J. Cronbach (1971) propone la definición de \»evaluación\» como un procedimiento para hacer inferencias. Damos a los estudiantes cosas para hacer – como tareas, actividades, pruebas y así sucesivamente – y recogemos pruebas ese trabajo, de las cuales sacamos conclusiones.

Definir una evaluación como un procedimiento para hacer inferencias también aclara que no tiene sentido utilizar los términos \»formativo\» y \»sumativo\» como tipos de evaluación, porque la misma evaluación puede ser utilizada de manera sumativa o formativa. Por ejemplo, una prueba de hechos numéricos como saber fechas nos puede aportar pruebas tanto de una conclusión sumativa (este niño sabe el 50% de las fechas) como de una formativa (este niño probablemente se beneficiaría de un repaso en los sucesos del siglo XVII). Para el autor (uno de los mayores expertos del campo), no existe evaluación formativa o evaluación sumativa. Hay, en cambio, usos formativos y sumativos de la información de la evaluación.

Validez de la evaluación: una propiedad de las inferencias, no de las evaluaciones

La idea de que las evaluaciones son procedimientos para sacar conclusiones también ayuda a aclarar la idea de la validez de una evaluación. Tradicionalmente, la «validez» se ha definido como la medida en que una evaluación evalúa lo que pretende evaluar. Sin embargo, hay dos problemas con esta definición.

El primero es que las evaluaciones no pretenden nada. La pretensión (si es que existe tal palabra) la realizan los seres humanos, y las evaluaciones se utilizan a menudo de maneras que nunca fueron previstas o incluso admitidas por los encargados de desarrollarlas. Por ejemplo, la prueba de acceso a la universidad no fue jamás concebida para deducir lo bueno que es un colegio.

La nota media de un estudiante en la EBAU puede proporcionar alguna información sobre el grado de rendimiento de ese estudiante en sus cursos de bachillerato, pero proporciona muy poca información sobre la calidad de la educación recibida por ese estudiante, ya que los factores más importantes en las notas de un estudiante no tienen nada que ver con la escuela, sino más bien con las características personales -y los antecedentes sociales- del estudiante (Wiliam, 2012).

El segundo problema de definir la validez como una propiedad de un examen u otra forma de evaluación es que una evaluación puede ser válida en algunas circunstancias pero no en otras. Si tuviéramos un examen de problemas de aritmética con una alta demanda de comprensión lectura, ¿qué podemos concluir de la puntuación de un estudiante en el examen?

Si algunos de los estudiantes que hacen el test son malos lectores, no sabemos lo que significa una puntuación baja. Puede ser que el estudiante no haya sido capaz de hacer la aritmética, pero puede significar que el estudiante era capaz de hacer la aritmética, pero no pudo comprender las preguntas lo suficientemente bien.

Por eso hay ahora un acuerdo generalizado entre los investigadores de evaluación: la validez no es una propiedad de las evaluaciones sino de las inferencias.

Que una evaluación en particular pueda apoyar inferencias válidas dependerá de las circunstancias en las que se administre la evaluación. Y esto nos lleva a un principio muy importante de la evaluación. Cuando damos a los estudiantes una evaluación, casi nunca nos interesamos en lo bien que lo hizo un estudiante en esa prueba. Estamos interesados en cómo los resultados de la prueba nos permiten sacar conclusiones sobre cosas que no estaban en la prueba.

Así que cuando alguien pregunta: «¿Es válido este test?», en opinión de Dylan Wiliam la mejor respuesta es: «Dime lo que te propones concluir sobre un estudiante en base al resultado de su test, y te diré si esa conclusión está justificada».

Algunas referencias (aparte del libro de Dylan Wiliam «Embeeded Formative Assessment»):

1. Winne, P.H. and Butler, D.L. (1994) Student cognition in learning from teaching en Husen, T. And Postlethwaite, T. (eds.) International encyclopedia of education. 2nd ed. Oxford: Pergamon, pp. 5738-5745

2. Kime, S. (2018) Reducing teacher workload: the “Rebalancing Feedback” trial [Research Report]. Edvidence Based Education.

3. Jensen, P.A. and Barron, J.N. (2014) Midterm and first-exam grades predict final grades in biology courses, Journal of College Science Teaching 44 (2) pp. 82-89