Mostrando entradas con la etiqueta Medición educacional. Mostrar todas las entradas
Mostrando entradas con la etiqueta Medición educacional. Mostrar todas las entradas

jueves, 30 de julio de 2009

Tabla de Especificaciones de una prueba

La validez es el primer aspecto que debe cubrir una prueba, y a su vez, la validez de contenido es la primera evidencia de la validez de la prueba. La validez de contenido se operativiza a través de la Tabla de especificaciones de la prueba (TEP). Cada institución educativa plantea, de acuerdo con sus necesidades y objetivos, las especificaciones de la TEP que, en la mayoría de los casos, corresponde de manera directa con el programa de las áreas a evaluar.

El diseño y construcción de la prueba estará a cargo del docente del curso o requerirá la constitución de un equipo de docentes. El docente - o equipo de docentes - será el encargado de elaborar la TEP. Para ello se recomienda seguir los siguientes pasos:
1. Determinar las áreas, sub-áreas y contenidos temáticos que serán evaluados en la prueba.
2. La TEP debe diseñarse en forma de matriz con los contenidos en las filas y los niveles de complejidad en las columnas.
Leer artículo completo aquí

Acerca del modelo de Rasch


Como sabemos las pruebas de rendimiento son instrumentos que permiten medir el rendimiento en una determinada área o contenido. Como instrumentos de medición ellos deben ser construidos según criterios aceptados generalmente y estar debidamente calibrados. Por lo general, el puntaje total obtenido en las pruebas de rendimiento lleva a emitir juicios de valor acerca del dominio del alumno examinado en el tema de la prueba. Según el modelo de Rasch, si bien el puntaje total contiene toda la información necesaria para la estimación de la capacidad de la persona, esto no es suficiente para ver si las respuestas observadas encajan en el modelo. El modelo de Rasch es un modelo probabilista que toma en cuenta la habilidad de los alumnos y la dificultad de las preguntas contenidas en la prueba.

Para explicar mejor este punto imaginemos la siguiente situación. Con el fin de medir el rendimiento en un tema T, el profesor P aplica a sus alumnos dos pruebas, la prueba I y la prueba II. Supongamos que la prueba I contiene en su mayoría preguntas con bajo nivel de complejidad, mientras que la prueba II contiene preguntas en su mayoría con altos niveles de complejidad. En otras palabras, la prueba I resultó fácil y la prueba II resultó difícil para sus alumnos. Esto arrojo resultados que presentan al alumno A como de alto dominio del tema (prueba I) y luego como de bajo dominio del tema (prueba II). Lo anterior pone en evidencia que el juicio de valor acerca del dominio del tema del alumno A es dependiente del instrumento de medición. Si la prueba es fácil, el profesor P dirá que el alumno A es bueno en el tema T, si la prueba es difícil, el profesor P dirá que el alumno A es malo en el tema T.

Uno de los fundamentos de la medición radica en el hecho que el objeto medido debe ser independiente del instrumento de medición. Por ejemplo, la longitud de mi escritorio debe ser la misma si utilizo una regla, una cinta métrica o una wincha. La medida de la masa corporal debe ser la misma si utilizo la balanza de baño, la del gimnasio o la del médico. Lo mismo podemos decir de la estatura, temperatura corporal, presión arterial y tantas otras medidas. El juicio de valor no es el mismo si la presión arterial es alta y luego baja para una misma persona. Nosotros esperamos que el instrumento sea confiable y esté debidamente calibrado para tener una medida más precisa. De igual manera es deseable que las pruebas de rendimiento se conviertan en instrumentos confiables y calibrados que permita obtener una medida más precisa del nivel de dominio del alumno examinado en un determinado tema, contenido o área.

Con el modelo de Rasch podemos mejorar la construcción de nuestras pruebas de rendimiento. El modelo de Rasch se convierte en un modelo de comportamiento deseable donde es posible la construcción de una escala conformada por preguntas según su nivel de dificultad. De esta forma es posible obtener medidas más exactas del rendimiento del alumno examinado. Si el docente cuenta con un banco de preguntas con niveles de dificultad conocidos es posible calibrar la prueba de rendimiento. Con los resultados obtenidos en la prueba podemos estimar la habilidad de los alumnos examinados. Si el docente no cuenta con un banco de preguntas es posible realizar una estimación conjunta de los niveles de dificultad de las preguntas y los niveles de habilidad de los examinados.

El modelo de Rasch postula que la probabilidad que tiene un alumno de responder correctamente una pregunta depende de la diferencia entre el nivel de habilidad de la persona (B) y el nivel de dificultad de la pregunta (D). Esto supone ubicar B y D en la misma escala con las mismas unidades (logitos) lo cual se constituye en una ventaja del modelo. Usualmente se consideran valores de B y D dentro del intervalo de -4 a 4. Siguiendo un patrón lógico, un alumno con habilidad estimada 1.2 debería responder correctamente las preguntas de la prueba con niveles de dificultad menores a 1.2 pero no podría responder correctamente aquellas con niveles de dificultad mayores a 1.2. Recuerde que el modelo es probabilístico y esto no siempre ocurre así, sin embargo es lo lógico y por tanto lo esperado. En la realidad podemos encontrar respuestas que no siguen un patrón lógico. Por ejemplo un alumno con habilidad estimada de -0.7 responde correctamente preguntas con niveles de dificultad de 1.5 y 2.1, u otro alumno con habilidad estimada de 2.3 no responde correctamente una pregunta con nivel de dificultad de -0.9. En estos casos tanto el patrón de respuesta de los alumnos junto como el ajuste estadístico correspondiente proveen de la información necesaria para la estimación de la habilidad.

En la imagen mostrada al inicio de este artículo se presenta una de las versiones de la formulación matemática del modelo de Rasch. Esta se interpreta como “la probabilidad que tiene una persona en responder correctamente la pregunta depende de la diferencia entre el nivel de habilidad de la persona (Bs) y el nivel de dificultad de la pregunta (Di)”.

Para profundizar en este tema puede consultar el artículo: Información adicional obtenida con el modelo de Rasch desde:
http://sisbib.unmsm.edu.pe/bibvirtual/publicaciones/inv_educativa/2009_n24/contenido.htm 

Acerca de las Pruebas de Rendimiento

Las pruebas de rendimiento que tomamos en el aula son instrumentos que permiten medir el rendimiento de un alumno en una determinada área o contenido. Como instrumentos de medición ellos deben ser construidos según criterios aceptados generalmente y estar debidamente calibrados. Cuando las pruebas de rendimiento son construidas sin mayor cuidado, no podemos desprender que los puntajes alcanzados por los alumnos sean indicador de su rendimiento. Dado que estas pruebas son una forma de observación indirecta del dominio del área, tema o contenido evaluado, se recomienda seleccionar preguntas según distintos niveles de complejidad. De esta forma se posibilita una evaluación más fina ya que podemos explorar diferentes capacidades o niveles de competencia del dominio del tema evaluado.

El puntaje total obtenido en las pruebas de rendimiento permite hacer inferencias acerca de la cantidad en que los alumnos dominan el tema o contenido que la prueba mide. Toda la información acerca de la habilidad de la persona está contenida en el puntaje observado. Existen dos marcos teóricos que permiten interpretar los puntajes observados. El primero de ellos es la teoría tradicional o también llamada Teoría Clásica del Test (TCT). Según ésta el puntaje observado del alumno no es igual a su puntaje verdadero, sino que es la suma de éste con un error de medición. Cuanto menor sea el error de medición, más cercano será el puntaje observado - en la prueba de rendimiento - al puntaje verdadero. En otras palabras la medición indirecta del dominio del tema sería más cercana al verdadero dominio del tema. El segundo de ellos es la teoría moderna. Aquí se incluyen el modelo de Rasch y los modelos de uno, dos y tres parámetros de la Teoría de Respuesta al Ítem (TRI). Todos ellos modelos probabilísticos. Según el modelo de Rasch, si bien el puntaje total contiene toda la información necesaria para la estimación de la capacidad de la persona, esto no es suficiente para ver si las respuestas observadas encajan en el modelo. En estos casos el patrón de respuesta de los alumnos junto con el ajuste estadístico correspondiente provee de la información necesaria para la estimación de la capacidad.
En ambos casos existirán errores. En la TCT está asociado a la medición y en el modelo de Rasch asociado con la diferencia entre la respuesta observada a una pregunta y la probabilidad de responderla correctamente. Los errores de medición afectan la confiabilidad de los resultados de las pruebas. Uno de los factores que minimizan el error de medición está referido a la construcción de las preguntas. De aquí la necesidad de seguir determinados estándares. En la actualidad existe una amplia literatura que refiere los criterios que deben ser utilizados para construir preguntas adecuadas, en particular en las llamadas preguntas objetivas.