>> Volver Documentos Técnicos

Teorías de Medición Educacionales

Las Teorías de Medición sirven como marco teórico para el diseño e implementación de instrumentos de medición. Proporcionan métodos o procedimientos para determinar las características de los estímulos o preguntas que forman las pruebas.
A partir de las características obtenidas se derivan métodos para efectuar otros análisis que sean de interés para los usuarios de las pruebas.

Principales teorías de la Medición Usadas en Educación

      • Teoría  clásica de la medición TC.
      • Teoría de respuesta al item  IRT o TRI.

Parámetros o Descriptores que Caracterizan a una Pregunta o Ítem de una Prueba

      • Dificultad: cuan fácil o difícil resultó la pregunta para la población a la cual se le aplicó.
      • Discriminación: capacidad que tiene la pregunta para distinguir, para separar, a las personas que tienen la capacidad que se mide de las que no la poseen.
      • Habilidad: en medición educacional suele denominarse así al rasgo que se desea medir con la prueba, este puede ser comprensión lectora, razonamiento científico,  operatoria con números reales, etc.

Aspectos Comunes de la Teoría Clásica TC y Teoría de Respuesta al Item TRI

Ambas teorías parten de los siguientes principios:

1. Que se han definido rigurosamente:
      • la variable que se quiere medir.
      • los indicadores que servirán de base para la construcción de los estímulos.

2. Que la construcción de los estímulos  ha seguido todas las normas recomendadas.

3. Que la aplicación experimental ha sido diseñada considerando todas las características de la población objetivo y la muestra tiene un tamaño adecuado.


Teoría Clásica

Indicador de la habilidad: es el puntaje que se obtiene en la prueba, construido a partir del número de respuestas correctas o de alguna forma previamente definida.

Dificultad: proporción de personas que contesta  correctamente una pregunta.

Discriminación: correlación entre contestar correcta o incorrectamente al ítem y el puntaje total en la prueba.

Supuestos de la TC

La TC supone que el puntaje que obtiene una persona en una prueba tiene dos componentes independientes entre sí y que se suman:

        • El puntaje verdadero.
        • El error de medición.

En consecuencia, el puntaje obtenido es una estimación del valor verdadero del rasgo que se mide.

Teoría de Respuesta al Item TRI

Los modelos TRI centran su interés en las preguntas.

Intentan establecer para cada ítem la probabilidad de ser contestado correctamente. Curva característica de un item CCI.

La probabilidad de una respuesta correcta  depende de la habilidad del examinando,  y de características propias de las preguntas, tales como: dificultad, discriminación y probabilidad de ser acertada por azar por un sujeto de muy baja habilidad.

Proporciona información sobre el nivel de precisión que una pregunta aporta  en la estimación de un determinado nivel de habilidad. Esto se conoce con el nombre de “información de un ítem”.

Mientras mayor es la información que proporciona una pregunta en un determinado nivel de habilidad, mejor es el grado de precisión con que se estima ese nivel de habilidad. Esto permite construir pruebas muy ajustadas al propósito que se persigue.

 

Teoría de Medición

 

Grafico Teoría de Medición

 

Supuestos Claves de la TRI

 

Unidimensionalidad: la puntuación de una persona en el test depende exclusivamente de una dimensión o factor: su nivel en la habilidad medida.

Independencia local: Indica que los modelos asumen que las respuestas de las personas a un ítem son independientes de las respuestas a los otros ítemes.

Experiencias educacionales similares en los alumnos que rinden las pruebas.

Que la prueba no haya sido apurada, es decir, se asigne el tiempo necesario para que todos alcancen a abordar todos los ítemes.

Que no haya efectos de contexto no controlados. Es de suma importancia que el modelo sea capaz de predecir con la mayor exactitud posible el comportamiento de los alumnos frente a cada pregunta.

 Ventajas y Desventajas de la TRI

La principal ventaja potencial sobre la TC es la invarianza de los  puntajes de la prueba y de las características de las preguntas.

La posibilidad de construir curvas de información para cada ítem lo que permite la optimización de la selección de las preguntas para una prueba con objetivos específicos.

Proporciona métodos alternativos para la detección de sesgos en las preguntas. Análisis DIF.

Proporciona métodos alternativos para la realización de procesos de equating, proceso por el cual dos pruebas se hacen comparables.

Sin embargo, todas las ventajas anteriores se pierden cuando no se cumplen los requisitos  y en muchas ocasiones la naturaleza de las disciplinas medidas  impide el cumplimiento de los supuestos lo que hace aconsejable no usar la TRI.


Algunos  Ejemplos Típicos de No Cumplimiento de los Supuestos de la TRI

  • Se ha comprobado que hay disciplinas que son claramente multidimensionales

Ejemplos:

      • Pruebas de ciencias (Hamilton et al 1997 y Nussbaum et al 1997)
      • Pruebas en el área de las ciencias sociales
  • La medición de la comprensión lectora a partir de un texto viola el supuesto de independencia local. (Kolen y Brennan 1995).
  • La medición en gran escala implica que los alumnos medidos han sido sometidos a diferentes experiencias educativas, lo que transgrede el supuesto de experiencias educacionales similares, lo que a su vez, atenta contra el supuesto de invarianza de las preguntas.

Finalmente, en el contexto de la selección, es decir, emplear la TRI con los resultados de las pruebas de admisión, conlleva algunos problemas prácticos:

Comprensión de los puntajes: postulantes con el mismo número de respuestas correctas, erradas y omitidas tengan distinto puntaje de habilidad.

Preparación por parte de los establecimientos educacionales de pruebas de ensayo, dado que no tienen la tecnología para asignar los puntajes.

Dificultad por parte de quienes no manejan la TRI de verificar si el proceso ha sido bien ejecutado.

Análisis del funcionamiento diferencial de un item DIF

Consiste en analizar si una pregunta se comporta de manera similar en distintos grupos que se pueden formar en la población que rinde una prueba.

Los parámetros que se analizan son:

      • Dificultad
      • Discriminación

Los grupos de análisis generalmente responden a características que de algún modo están produciendo puntajes distintos. Por ejemplo:

      • Género
      • Tipo de educación
      • Dependencia del establecimiento educacional

 Análisis del Funcionamiento Diferencial de un Item DIF

Para determinar si las diferencias observadas son producto de la pregunta o bien es consecuencia de que los grupos analizados son estructuralmente distintos, es decir, han sido sometidos a experiencias educativas y ambientales que no son homologables, existen métodos estadísticos, tanto en la TC como en la TRI.

En este caso se habla de impacto, no de sesgo del item.

Ejemplo: resultados en una prueba que se aplica a grupos que han tenido una formación que se sabe es diferente. Por lo tanto, no es la prueba la causa de las diferencias en el nivel de logro, ella se encuentra en la formación de base de los alumnos.

EN SÍNTESIS

  • Se dice que los supuestos de la TC son más bien débiles, en el sentido que son generales, su fuerza está en su generalidad, se pueden aplicar a situaciones muy variadas.
  • Por su parte, los supuestos de la TRI son más fuertes, más restrictivos, se sacrifica generalidad para ganar precisión predictiva.
  • El precio a pagar es la exigencia que los datos cumplan supuestos muy específicos.
  • El modelo subyacente es refutable.
  • Ante  la eterna disyuntiva entre generalidad y precisión, a la que toda metodología  científica se enfrenta, la TC da más peso a la generalidad y la TRI a la precisión.
  • En consecuencia, ambos enfoques están obligados a entenderse,  en provecho de los usuarios. Esto implica usar las teorías en forma complementaria.
  • El DEMRE ha adoptado esta posición de usar las dos teorías en forma complementaria. Para ello se realizan los análisis de cada pregunta bajo la óptica de la teoría clásica y de la teoría de respuesta al ítem. Lo anterior permite contar con mayor información en el momento de seleccionar las preguntas que formarán parte de cada una de las pruebas, lo que, a su vez, contribuye a que la medición realizada sea cada vez más precisa y válida. Esto da sustento al propósito de las pruebas, “seleccionar a los postulantes que tienen la mayor probabilidad de éxito en su primer nivel universitario”.

Referencias Bibliográficas en Español

  • Dusaillant, Francisca, “Técnicas de Medición en Pruebas de Admisión a las Universidades”. Centro de Estudios Públicos, otoño 2003 nº 90.
  • Manzi, Jorge; San Martín Ernesto, “La Necesaria Complementariedad entre Teoría Clásica de la Medición (TCM) y Teoría de Respuesta al Item (IRT)". Centro de Estudios P úblicos, otoño 2003 nº 90.
  • Muñiz, José, “Introducción a la Teoría de Respuesta a los Items”. Ediciones Pirámide, Madrid, 1997.
  • Stage, Christina, “Teoría Clásica de Medición o Teoría de Respuesta al Item: La Experiencia Sueca”. Centro de Estudios Públicos, otoño 2003 nº 90.