SISTEMA PARA CALIFICACION DE PRUEBAS REFERIDAS A CRITERIO Y DEFINICION DE ESTANDARES.
Por: Agustín Tristán López y CENEVAL.
(Haga click sobre las imágenes para ver el tamaño real)
Las pruebas con referencia a criterio, empleadas ampliamente en la actualidad, tienen una relación muy importante con la certificación de competencias profesionales. Para este tipo de pruebas se requieren especificaciones de diseño, así como metodologías de calificación y análisis apropiadas a los propósitos de la evaluación; en particular se desarrolló un modelo y un software para apoyar a los diseñadores de este tipo de pruebas. El modelo para el análisis y la definición de estándares incluye varias capacidades adaptadas de referencias técnicas, además de nuevas formulaciones desarrolladas especialmente para uso en el software. Los aspectos principales se ubican en un modelo logístico biparamétrico para el análisis de los reactivos y un análisis de calidad de la prueba. El programa ha sido utilizado ampliamente en México desde 1998, con el cual se ha calificado y analizado más de un millón y medio de estudiantes recién egresados, así como profesionistas para su certificación.
Criterion references tests are widely used actually, mainly related to certification of professional competencies. New specifications for test design as well as for test scoring and analysis are needed; in order to help test designers a comprehensive model and software have been developed. The model for analysis and definition of standards includes several options coming from technical papers, plus new formulations developed specially for the software. The cornerstones are a logistic two-parameter model for item analysis and the analysis of test quality. The program has been widely used in Mexico since 1998, scoring and analyzing more than 1.5 million undergraduate and graduate students.
Como resultado del famoso artículo de Glaser sobre pruebas referidas a criterio (PRC) y los diferentes esquemas propuestos por otros autores (Berk, Cizek, Hambleton, Nitko, Popham, Wright, etc.), los maestros y los diseñadores de pruebas se enfrentan a una enorme cantidad de información y de modelos; la cantidad es tan grande que se vuelve no solamente complicada sino impráctica para usarla de manera operativa en la práctica cotidiana. Por lo tanto, es necesario un modelo claro, simple y práctico si se desea evaluar, dictaminar y ofrecer retroalimentación en clase o en un nivel institucional, especialmente cuando las escuelas tienen grupos numerosos de alumnos. Tanto los maestros como las autoridades necesitan contar con suficiente información a corto plazo si se pretende retroalimentar exitosamente y de manera oportuna.
La evaluación referida a criterio está actualmente en la mente de muchos educadores, edumetristas y psicómetras, especialmente cuando la educación requiere certificar competencias profesionales. Las personas no se interesan solamente en el conocimiento de cosas, sino en el saber hacer algo con esos conocimientos; se requiere decidir si un candidato es apto para ocupar un nuevo puesto de trabajo y brindar buenos resultados; los recién egresados tienen que iniciar sus actividades profesionales y ofrecer soluciones en su área; hay personas que deben mostrar calidad y maestría en sus habilidades al desempeñar una tarea específica. Las pruebas referidas a norma no tienen que ver con estos aspectos (o, cuando más, tienen muy poco que ver): la comparación de habilidades entre las personas de un mismo grupo no es la herramienta idónea para certificar un cierto nivel de competencia, sino la comparación contra un juego de especificaciones o estándares.
Existen numerosos modelos para PRC. Los autores ofrecen distintas aproximaciones, diferentes opiniones, ideas conceptuales o formas de pensar, pero desde el punto de vista práctico, los modelos que se ofrecen en la literatura son un galimatías para un maestro en la práctica o para las autoridades educativas en general. El maestro en clase tiene que analizar y evaluar el desempeño de sus alumnos, mientras que las instituciones deben conocer el nivel de los estudiantes de manera rápida y comprensible. Por tales razones los modelos deben ser simples pero, al mismo tiempo, ofrecer información suficiente para poder evaluar a los alumnos, analizar los ítemes y dictaminar la calidad de las pruebas.
Desde 1997 se desarrolló un modelo auxiliado por computadora para el diseño, construcción, análisis, calificación y reporte de PRC integrando diversos esquemas de autores clásicos, además de algunos modelos diseñados especialmente para el software, que se denomina Kalt-Criterial. El modelo está pensado para que lo utilicen los diseñadores de pruebas (no necesariamente psicómetras), quienes necesitan de una herramienta simple y eficiente.
En este texto no se presentan los resultados relacionados con la evaluación de alta exigencia (high-stakes assessment), ni datos procedentes de las aplicaciones que se han hecho en escuelas particulares, ni los resultados nacionales. Sin embargo debe mencionarse que estos aspectos se han tomado en cuenta en el modelo, porque la definición de los puntos de corte en las PRC, así como el uso de pruebas individuales (de un solo evento) para decisiones de alta exigencia están actualmente en la mira tanto de políticos como de instituciones. A este respecto, es importante decir que es práctica común utilizar modelos descriptivos y software que analiza reactivos por conteo simple de los aciertos que tiene una persona en una prueba; esta práctica reduce los niveles de calidad de las pruebas y puede conducir a evaluaciones incorrectas. Tanto KALT-NORMAL (el software de propósito general de la misma Familia de Programas KALT) como KALT-CRITERIAL son herramientas muy exigentes respecto a la calidad de los reactivos y de la prueba. Ambos programas parten de modelos paradigmáticos (en lugar de modelos descriptivos) respecto al comportamiento esperado de los reactivos y de las pruebas, son más exigentes que otros programas que se ofrecen comercialmente y por lo tanto ofrecen mayores capacidades para revelar problemas y posibles errores en el reactivo y en el diseño de las pruebas.
Durante el desarrollo de KALT-CRITERIAL y de los modelos matemáticos, se siguieron los estándares del Joint Committee AERA-APA y del Consejo Asesor Externo (Organismo de metaevaluación del Ceneval, México), especialmente en los estándares referentes a las pruebas de alta exigencia, adoptados por la AERA en julio de 2000. El propósito del software no es solamente calificar a los sustentantes, sino detectar deficiencias en la prueba, con objeto de reducir los efectos negativos que pueden estar asociados a una prueba de un solo evento, donde las decisiones de "aprobar" o "reprobar", así como el establecimiento de los niveles de "maestría" pueden afectar el futuro de un estudiante. Es por ello que se requieren los criterios más demandantes tanto para el análisis de los reactivos, como para dictaminar la calidad de las pruebas.
Descripción del software para calificación de pruebas referidas a criterio.
KALT-CRITERIAL es un sistema auxiliado por computadora para PRC, diseñado bajo el sistema operativo Windows 95/98/NT, utilizando Visual Basic para la interfaz con el usuario y un compilador compatible con C++ para los programas de proceso. El conjunto de programas incluye estas capacidades principales:
Fig.1 – Muestra de la pantalla de descripción general.
Fig.2 – Muestra de la ventana de dictamen.
Fig.3 – Ventana para definir datos de análisis y reporte técnico.
Fig.4 – Ventana que muestra una de las bases de datos que produce el software.
Fig.5 – Editor de textos mostrando el reporte individual
Fig.6 – Editor de textos mostrando el reporte global
Modelo para pruebas referidas a criterio.
KALT-CRITERIAL incluye varios modelos asociados con PRC, permitiendo al usuario enfocarse a la interpretación y la evaluación, de acuerdo con sus propias preferencias.
Fig.7 – Ventana para definir la Tabla de Transformación de Criterio
El Ceneval utiliza una escala de 700 a 1300 puntos, la TTC es definda por medio de un comité de jueces quienes establecen el valor de corte de suficiencia en 1000 y de alto rendimiento en 1150.
Puntos de corte experimentales y confiabilidad del nivel de
maestría
Fig.8 – Reporte de puntos de corte experimentales
En la versión 3.0 de KALT-CRITERIAL, se incluirán dos opciones adicionales: (a) construcción de la curva caractrística de operación (ROCC) y (b) uso de poblaciones de control.
Fig.9 – Mapa de reactivos en el plano Dificultad-Correlación Punto-biserial
Fig.10 – Ejemplo de reporte de análisis.
La versión 3.0 de KALT-CRITERIAL incluirá dos elementos adicionales: (a) uso de PHI y (b) poder de discriminación, ambos referidos a un criterio externo.
El software proporciona las tablas de contingencias por opción, dividiendo al grupo de acuerdo con el punto de corte: En este caso los grupos alto y bajo tienen un número distinto de sujetos dependiendo del punto de corte. Es importante apuntar aquí que no existe un modelo racional en la literatura con relación a PRC, en consecuencia se desarrolló un modelo enteramente nuevo y original para el software. Se adoptó el modelo logístico biparamétrico sugerido por Hosmer y Lemeshow, usando mínimos cuadrados sobre las respuestas del grupo dividido en deciles. Los valores psicométricos se determinan una vez obtenida la función de ajuste: la dificultad corresponde al valor para el cual p=0.5, se definió una nueva fórmula para determinar la discriminación en función de la diferencia de respuestas de los grupos alto y bajo. Este concepto es similar a la definición que se tiene en el modelo clásico, en lugar de la pendiente en el punto de inflexión de la curva logística, esta definición no solamente tiene implicaciones para la comprensión del modelo, sino también con relación a la interpretación de la TRI o del modelo de Rasch. Este análisis produce una página completa de información por cada reactivo.
Fig.11 – Modelo logístico para análisis de reactivo
En la versión 3.0 de KALT-CRITERIAL se incluirá el modelo de Rasch además del modelo biparamétrico, de modo que el usuario elija el modelo que desee. Los modelos de 3 y de 4 parámetros están fuera del modelo concebido para KALT-CRITERIAL, por lo que no se incluirán en futuras versiones.
Fig.12 – Recta de diseño 20-80 y distribución de los reactivos
Conviene mencionar aquí que la recta de diseño 20-80 se puede utilizar para realizar estudios de validez de constructo usando el modelo propuesto por Beaton y colaboradores, "anclando" los reactivos a niveles de dificultad, por ejemplo fracciones desviación estándar. Se está en estudio para incluir el método de Haertel en esta parte del programa.
Fig.13 – Validez de constructo usando la recta de diseño 20-80
El reporte incluye asimismo la gráfica de frecuencias de reactivos por dificultad, pero se ha visto que la recta de diseño 20-80 es una herramienta más completa para analizar y dictaminar la validez de la prueba.
Fig. 14 – Diagrama de frecuencias de la dificultad de los reactivos
Otras herramientas de análisis serán incluidas en futuras versiones del software, se está evaluando la conveniencia de escalamiento multidimensional o análisis factorial.
En pruebas de un solo evento – como es el caso de las pruebas del Ceneval – no se tiene una interacción educativa con el estudiante, por lo tanto las pruebas deben discriminar entre aptos y no aptos usando la información disponible a partir de la prueba. Esta situación requiere el uso de una población de control o el uso de instrumentos de amplia varianza; esto puede parecer contradecir lo que los autores postulan de que las PRC no necesitan tener una amplia varianza, sin embargo en la práctica se ha visto que la varianza en necesaria para tomar decisiones más confiables.
El software contiene dos modelos actualmente para definir los niveles de maestría: criterio absoluto (donde la decisión solo toma en cuenta el resultado obtenido a nivel global) y criterio relativo (donde la decisión debe considerar las áreas que forman a la prueba, con lo que la decisión global depende de los resultados parciales).
Otros modelos asociados con el patrón de respuestas de cada estudiante o el uso de un conjunto de reactivos de "requisito" o modelos bayesianos se han planteado, pero por el momento de ha visto que los responsables de pruebas y las instituciones tienen dificultades para interpretar este tipo de modelos.
. El programa está conectado con el programa administrador "Banco de Reactivos". Se trata de un módulo organizador de la base de datos, dispone de elementos de edición con un editor propio en ambiente Windows, genera las pruebas y las claves de respuestas. El programa incluye un módulo de administración para asignar permisos y autorizaciones. Los archivos tienen formato estándar RTF y el programa construye pruebas en archivos para ser aplicados en exámenes de lápiz y papel o por computadora (en línea).Fig.15 – Ejemplo de la interfaz del Banco de Reactivos
El segundo módulo relacionado con este programa es el módulo de "Examen en Línea" (KALT-ON LINE), que permite aplicar exámenes en red local dentro del ambiente Windows 95/98/NT, administra diferentes pruebas previamente construidas desde el Banco de Reactivos. Pueden emplearse pruebas multimedia, aprovechando cualquier objeto de Windows.
El software se presenta en dos módulos: (1) módulo administrador, donde un supervisor puede monitorear el área de aplicación de la prueba, enviar y recibir mensajes de los estudiantes, resolver problemas operativos, comprobar el avance de los estudiantes, entre otras opciones.
Fig.16 – Ejemplo del módulo administrador
(2) Módulo examinador, donde el estudiante cuenta con una interfaz simple y amistosa para contestar su prueba y recibir retroalimentación dependiendo del tipo de prueba.
Fig.17 – Ejemplo de la interfaz del módulo examinador
KALT-ON LINE se ha empleado desde 1999 para certificar competencias de áreas específicas, tal como médico veterinario, donde se necesita una interacción con el estudiante para simular casos clínicos. En esta prueba en particular el software proporciona retroalimentación de manera interactiva al estudiante, de este modo es posible tomar decisiones sobre la salud del paciente y sus efectos (positivo, negativo, neutral), de acuerdo con los efectos obtenidos el responsable de la prueba tiene mejores elementos para evaluar el desempeño del estudiante.
Se tienen en desarrollo dos módulos adicionales de KALT-ON LINE: prueba adaptativa y simulador, ambos para pruebas de criterio para evaluación de competencias profesionales.
AERA (2000) "AERA position statement concerning high-stakes testing in PreK-12 education". AERA Policies, Standards and Statements. July 2000.
AERA, APA, NCME (1999) "Standards for educational and psychological testing", Washington. AERA
Beaton A.E. & Allen N.L. (1992) "Interpreting scales through scale anchoring", Journal of Educational Statistics, Summer, Vo. 17, pp 191-204
Berk R.A. (1986) "A consumer’s guide to setting performance standards on criterion-referenced tests". Review of Educational Research, Spring. Vol. 56, N.1, pp 137-172
Ceneval (2000) "Estándares de calidad para instrumentos de evaluación educativa". México. Ceneval, 52 pp.
Ceneval (2000) "Manual técnico". México. Ceneval, 64 pp.
Cizek G.J. (1996) "Setting passing scores", Educational Measurement:: Issues and practice. Summer, pp. 20-31
Chuang D.T., Chen J.J. & Novick M.R. (1981) "Theory and practice for the use of cut-scrores for personnel decisions", Journal of Educational Statistics, Summer, Vol. 6,N.2, pp 129-152
Garcia-Quintana R.A. & Mappus M.L. (1980) "Using norm-referenced data to set standards for a minimum competency program in the State of South Carolina: a feasibility study", Educational Evaluation and Policy Analysis, March-April, Vol. 2, N.2, pp. 47-52
Glaser R. (1963) "Instructional technology and the measurement of learning outcomes". American Psychologist, Vol. 18, pp 519-521
Haertel E. (1985) "Construct validity and criterion-referenced testing". Review of Educational Research. Spring. Vol. 55, N.1, pp 23-46
Hambleton R.K. et al. (1978) "Criterion-referenced testing and measurement: A review of technical issues and developments", Review of Educational Research, Winter, Vol.48, pp 1-47.
Hofstee W.K.B. (1983) "The case of compromise in educational selection and grading. In S.B. Anderson & J.S. Helmick (Eds), On Educational testing, pp. 109-127, San Francisco: Jossey-Bass
Hosmer D.W. & Lemeshow S. (1989) "Applied Logistic Regression". New York, John Wiley & Sons, Inc.
KALT-CRITERIAL, KALT-ITEM BANK AND KALT-ON LINE (1998-2000) "Manual de usuario", Ingeniería y Estadística Especializada, México.
Nitko A.J. (1980) "Distinguishing the many varieties of criterion-referenced tests", Review of Educational Research, Fall, Vol.50,N.3, pp 461-485
Popham J.W. (1973) "Criterion-referenced measurement", Chap. 7. Educational evaluation. Prentice Hall, N.J. pp 126-168
Subkoviak M.J. (1988) "A practitioner’s guide to computation and interpretation of reliability indices for mastery tests", Journal of Educational Measurement, Spring, Vol. 25, N.1, pp 47-55
Swaminathan H., Hambleton R.K. & Algina J. (1974) "Reliability of criterion-referenced tests: a decision-theoretic formulation", Journal of Educational Measurement, Vol. 11, N. 4, pp 263-267
Tristán L.A. & Vidal U.R. (1999) "Modelo de diseño para validez de constructo en pruebas referidas a criterio" Notas sobre Evaluación Criterial, IEESA-Ceneval. Octubre . N.10. pp 1-8
Tristán L.A. (2000) "Uso de tablas de expectativas y validez en pruebas referidas a criterio" Notas sobre Evaluación Criterial, IEESA-Ceneval. Marzo. N.12. pp 1-7
Wright B.D. & Lunz M.E. (1987) "Standards combining expert judgment, mastery level and statistical confidence", Memorandum #37, MESA Psychometric Laboratory, Dept. of Education, University of Chicago, January, pp 1-21