SISTEMA PARA CALIFICACION DE PRUEBAS REFERIDAS A CRITERIO Y DEFINICION DE ESTANDARES.

Por: Agustín Tristán López y CENEVAL.

(Haga click sobre las imágenes para ver el tamaño real)

Resumen.
Abstract.
Introducción.
Descripción del software para calificación de pruebas referidas a criterio.
 

Descripción general de la prueba.

 

Criterios de maestría (Dictamen).

 

Parámetros de análisis.

 

Módulos para calificar y realizar el análisis.

 

Editor de textos y módulo de reportes relacionales.

Modelo para pruebas referidas a criterio.
 

Tabla de transformación de criterio.

 

Puntos de corte experimentales y confiabilidad del nivel de maestría.

 

Análisis global de reactivos.

 

Análisis de reactivos logístico asociado a criterio.

 

Validez de diseño de la prueba.

 

Análisis de confiabilidad de la prueba.

 

Definición de estándares.

 

El software como parte de una familia de programas de evaluación.

Referencias

Resumen

Las pruebas con referencia a criterio, empleadas ampliamente en la actualidad, tienen una relación muy importante con la certificación de competencias profesionales. Para este tipo de pruebas se requieren especificaciones de diseño, así como metodologías de calificación y análisis apropiadas a los propósitos de la evaluación; en particular se desarrolló un modelo y un software para apoyar a los diseñadores de este tipo de pruebas. El modelo para el análisis y la definición de estándares incluye varias capacidades adaptadas de referencias técnicas, además de nuevas formulaciones desarrolladas especialmente para uso en el software. Los aspectos principales se ubican en un modelo logístico biparamétrico para el análisis de los reactivos y un análisis de calidad de la prueba. El programa ha sido utilizado ampliamente en México desde 1998, con el cual se ha calificado y analizado más de un millón y medio de estudiantes recién egresados, así como profesionistas para su certificación.

Arriba

Abstract

Criterion references tests are widely used actually, mainly related to certification of professional competencies. New specifications for test design as well as for test scoring and analysis are needed; in order to help test designers a comprehensive model and software have been developed. The model for analysis and definition of standards includes several options coming from technical papers, plus new formulations developed specially for the software. The cornerstones are a logistic two-parameter model for item analysis and the analysis of test quality. The program has been widely used in Mexico since 1998, scoring and analyzing more than 1.5 million undergraduate and graduate students.

Arriba

Introducción

Como resultado del famoso artículo de Glaser sobre pruebas referidas a criterio (PRC) y los diferentes esquemas propuestos por otros autores (Berk, Cizek, Hambleton, Nitko, Popham, Wright, etc.), los maestros y los diseñadores de pruebas se enfrentan a una enorme cantidad de información y de modelos; la cantidad es tan grande que se vuelve no solamente complicada sino impráctica para usarla de manera operativa en la práctica cotidiana. Por lo tanto, es necesario un modelo claro, simple y práctico si se desea evaluar, dictaminar y ofrecer retroalimentación en clase o en un nivel institucional, especialmente cuando las escuelas tienen grupos numerosos de alumnos. Tanto los maestros como las autoridades necesitan contar con suficiente información a corto plazo si se pretende retroalimentar exitosamente y de manera oportuna.

La evaluación referida a criterio está actualmente en la mente de muchos educadores, edumetristas y psicómetras, especialmente cuando la educación requiere certificar competencias profesionales. Las personas no se interesan solamente en el conocimiento de cosas, sino en el saber hacer algo con esos conocimientos; se requiere decidir si un candidato es apto para ocupar un nuevo puesto de trabajo y brindar buenos resultados; los recién egresados tienen que iniciar sus actividades profesionales y ofrecer soluciones en su área; hay personas que deben mostrar calidad y maestría en sus habilidades al desempeñar una tarea específica. Las pruebas referidas a norma no tienen que ver con estos aspectos (o, cuando más, tienen muy poco que ver): la comparación de habilidades entre las personas de un mismo grupo no es la herramienta idónea para certificar un cierto nivel de competencia, sino la comparación contra un juego de especificaciones o estándares.

Existen numerosos modelos para PRC. Los autores ofrecen distintas aproximaciones, diferentes opiniones, ideas conceptuales o formas de pensar, pero desde el punto de vista práctico, los modelos que se ofrecen en la literatura son un galimatías para un maestro en la práctica o para las autoridades educativas en general. El maestro en clase tiene que analizar y evaluar el desempeño de sus alumnos, mientras que las instituciones deben conocer el nivel de los estudiantes de manera rápida y comprensible. Por tales razones los modelos deben ser simples pero, al mismo tiempo, ofrecer información suficiente para poder evaluar a los alumnos, analizar los ítemes y dictaminar la calidad de las pruebas.

Desde 1997 se desarrolló un modelo auxiliado por computadora para el diseño, construcción, análisis, calificación y reporte de PRC integrando diversos esquemas de autores clásicos, además de algunos modelos diseñados especialmente para el software, que se denomina Kalt-Criterial. El modelo está pensado para que lo utilicen los diseñadores de pruebas (no necesariamente psicómetras), quienes necesitan de una herramienta simple y eficiente.

En este texto no se presentan los resultados relacionados con la evaluación de alta exigencia (high-stakes assessment), ni datos procedentes de las aplicaciones que se han hecho en escuelas particulares, ni los resultados nacionales. Sin embargo debe mencionarse que estos aspectos se han tomado en cuenta en el modelo, porque la definición de los puntos de corte en las PRC, así como el uso de pruebas individuales (de un solo evento) para decisiones de alta exigencia están actualmente en la mira tanto de políticos como de instituciones. A este respecto, es importante decir que es práctica común utilizar modelos descriptivos y software que analiza reactivos por conteo simple de los aciertos que tiene una persona en una prueba; esta práctica reduce los niveles de calidad de las pruebas y puede conducir a evaluaciones incorrectas. Tanto KALT-NORMAL (el software de propósito general de la misma Familia de Programas KALT) como KALT-CRITERIAL son herramientas muy exigentes respecto a la calidad de los reactivos y de la prueba. Ambos programas parten de modelos paradigmáticos (en lugar de modelos descriptivos) respecto al comportamiento esperado de los reactivos y de las pruebas, son más exigentes que otros programas que se ofrecen comercialmente y por lo tanto ofrecen mayores capacidades para revelar problemas y posibles errores en el reactivo y en el diseño de las pruebas.

Durante el desarrollo de KALT-CRITERIAL y de los modelos matemáticos, se siguieron los estándares del Joint Committee AERA-APA y del Consejo Asesor Externo (Organismo de metaevaluación del Ceneval, México), especialmente en los estándares referentes a las pruebas de alta exigencia, adoptados por la AERA en julio de 2000. El propósito del software no es solamente calificar a los sustentantes, sino detectar deficiencias en la prueba, con objeto de reducir los efectos negativos que pueden estar asociados a una prueba de un solo evento, donde las decisiones de "aprobar" o "reprobar", así como el establecimiento de los niveles de "maestría" pueden afectar el futuro de un estudiante. Es por ello que se requieren los criterios más demandantes tanto para el análisis de los reactivos, como para dictaminar la calidad de las pruebas.

Arriba

Descripción del software para calificación de pruebas referidas a criterio.

KALT-CRITERIAL es un sistema auxiliado por computadora para PRC, diseñado bajo el sistema operativo Windows 95/98/NT, utilizando Visual Basic para la interfaz con el usuario y un compilador compatible con C++ para los programas de proceso. El conjunto de programas incluye estas capacidades principales:

  1. Descripción general de la prueba. Módulo donde el usuario define la organización de su prueba: número de reactivos, número de variables o áreas, conjunto de respuestas correctas, reactivos que constituyen a cada variable o área y otros elementos descriptivos. En este módulo el usuario especifica los nombres de los archivos conteniendo las respuestas de los estudiantes, sus nombres y otros datos.

    Arriba

    Fig.1 – Muestra de la pantalla de descripción general.

     

  2. Criterios de maestría (Dictamen). En este módulo el usuario especifica la forma de dictaminar los niveles de desempeño y la manera de reportarlo: porcentaje de respuestas correctas, puntaje bruto, tablas de equivalencia, valores logísticos, etc.

    Arriba

    Fig.2 – Muestra de la ventana de dictamen.

     

  3. Parámetros de análisis. La prueba y los reactivos se analizan utilizando un juego de parámetros: El software permite al usuario establecer sus estándares, adaptar los niveles de aceptación y aplicar distintos enfoques para estudiar los efectos que se producen en las decisiones. La versión actual proporciona una interfaz gráfica donde el usuario puede definir límites de aceptación para análisis global usando dificultad y correlación punto biserial y los límites del dominio en el método de compromiso de Hofstee para comprobación del punto de corte.

    Arriba

    Fig.3 – Ventana para definir datos de análisis y reporte técnico.

     

  4. Módulos para calificar y realizar el análisis. Los módulos para calificar y analizar producen resultados inmediatos y completos. Durante la corrida el programa presenta reportes de avance junto con archivos temporales que pueden emplearse para verificar los resultados parciales. Cada paso de cálculo se conserva en archivos específicos que pueden emplearse de manera independiente o exportarse a otros programas como EXCEL, FoxPro, SAS, SPSS, etc. con lo que el usuario puede realizar análisis adicionales o producir sus propios reportes si así lo desea.

    Arriba

    Fig.4 – Ventana que muestra una de las bases de datos que produce el software.

  5. Editor de textos y módulo de reportes relacionales. Con los módulos de reportes relacionales, KALT-CRITERIAL puede producir reportes individuales o globales de todos los sustentantes. El software brinda facilidades para manipular los datos, tales como ordenar (alfabéticamente, por calificación, etc.), hacer selecciones (por escuela de origen, por sexo, etc.) y un formato libre de presentación a través de un editor de textos integrado al software.

Fig.5 – Editor de textos mostrando el reporte individual

Fig.6 – Editor de textos mostrando el reporte global

Arriba

Modelo para pruebas referidas a criterio.

KALT-CRITERIAL incluye varios modelos asociados con PRC, permitiendo al usuario enfocarse a la interpretación y la evaluación, de acuerdo con sus propias preferencias.

  1. Tabla de transformación de criterio. La calificación se calcula con el estimador más probable y se expresa como número de reactivos correctos, proporción de respuestas correctas, peso total o proporción de peso. La versión 3.0 del software permitirá el uso de estimadores logísticos para el dominio del estudiante, de acuerdo con la metodología propuesta por Wright, con base en el modelo de Rasch, produciendo un segundo estimador con el error estándar de acuerdo con el patrón de respuesta de cada uno de los estudiantes en función del escalograma de Guttman modificado. Aunque algunos usuarios emplean exclusivamente los puntajes brutos para transmitir los resultados a los estudiantes y a las instituciones, el programa proporciona otros medios para calcular los valores con una tabla de transformación de criterio (TTC). Una TTC es una herramienta muy útil para el usuario porque le permite definir una escala para cambiar un valor de origen (por ejemplo puntaje bruto) a un valor de destino en una escala predefinida (de 200 a 800 por ejemplo).

    Fig.7 – Ventana para definir la Tabla de Transformación de Criterio

    El Ceneval utiliza una escala de 700 a 1300 puntos, la TTC es definda por medio de un comité de jueces quienes establecen el valor de corte de suficiencia en 1000 y de alto rendimiento en 1150.

    Arriba

  2. Puntos de corte experimentales y confiabilidad del nivel de maestría. Las posiciones de 1000 y de 1150 se establecen por medio de decisiones a priori por el comité de jueces, siguiendo básicamente un procedimiento similar al propuesto por Angoff. ¿Cómo puede verificar el responsable de la prueba que ésta se encuentra en correspondencia con las especificaciones y los puntos de corte a priori? Hay varios modelos en la literatura (Berk, Cizek, Garcia-Quintana), para el programa se adoptó el modelo de compromiso a posteriori propuesto por Hofstee que, a pesar de sus limitaciones, tiene la ventaja de poder ser aplicado sistemáticamente, se puede explicar fácilmente a los profesores y a las autoridades, además de poder ser calculado inmediatamente por el programa a partir de la curva de frecuencias acumuladas. Con esta herramienta los jueces pueden revisar sus hipótesis y comprobar si sus resultados procedentes de la prueba están de acuerdo con el diseño original: la prueba tiene que pasar dentro del rectángulo o área de Hoftsee y el punto de corte debe estar de acuerdo con el diseño original. Este "método de compromiso de Hofstee modificado" proporciona una retroalimentación inmediata a la prueba y a los puntos de corte.

    Fig.8 – Reporte de puntos de corte experimentales

    En la versión 3.0 de KALT-CRITERIAL, se incluirán dos opciones adicionales: (a) construcción de la curva caractrística de operación (ROCC) y (b) uso de poblaciones de control.

    Arriba

  3. Análisis global de reactivos. El análisis de los reactivos se ofrece en dos niveles: global y específico. Se denomina análisis global al que parte de la dificultad clásica del reactivo (proporción de respuestas correctas) y la correlación punto-biserial. Los reactivos se representan en forma gráfica en el plano dificultad-rpbis, así como una clasificación (correcto, deficiente, a revisar, etc.). Este análisis brinda una imagen rápida de la calidad de los reactivos en relación con la prueba. Debe hacerse notar que el análisis global no está asociado con las PRC, porque la rpbis no está relacionado con el criterio de desempeño ni los puntos de corte, sin embargo se adoptó aquí para el análisis global porque se trata de una herramienta de uso común entre muchos usuarios. KALT-NORMAL tiene un modelo mucho más poderoso para el análisis clásico global de los reactivos, incluyendo el poder de discriminación, proporcionando un criterio más exigente. Para el desarrollo de KALT-CRITERIAL se decidió utilizar una aproximación distinta, incluyendo un análisis logístico descrito en el siguiente punto.

    Fig.9 – Mapa de reactivos en el plano Dificultad-Correlación Punto-biserial

    Fig.10 – Ejemplo de reporte de análisis.

    La versión 3.0 de KALT-CRITERIAL incluirá dos elementos adicionales: (a) uso de PHI y (b) poder de discriminación, ambos referidos a un criterio externo.

  4. Análisis de reactivos logístico asociado a criterio. El segundo análisis de reactivos es más fino, por medio de tres elementos principales: (1) Tablas de contingencias, (2) modelo logístico biparamétrico en forma gráfica y (3) tabla de resultados logísticos: ajuste, dificultad, discriminación, momios, probabilidad de respuesta.

    El software proporciona las tablas de contingencias por opción, dividiendo al grupo de acuerdo con el punto de corte: En este caso los grupos alto y bajo tienen un número distinto de sujetos dependiendo del punto de corte. Es importante apuntar aquí que no existe un modelo racional en la literatura con relación a PRC, en consecuencia se desarrolló un modelo enteramente nuevo y original para el software. Se adoptó el modelo logístico biparamétrico sugerido por Hosmer y Lemeshow, usando mínimos cuadrados sobre las respuestas del grupo dividido en deciles. Los valores psicométricos se determinan una vez obtenida la función de ajuste: la dificultad corresponde al valor para el cual p=0.5, se definió una nueva fórmula para determinar la discriminación en función de la diferencia de respuestas de los grupos alto y bajo. Este concepto es similar a la definición que se tiene en el modelo clásico, en lugar de la pendiente en el punto de inflexión de la curva logística, esta definición no solamente tiene implicaciones para la comprensión del modelo, sino también con relación a la interpretación de la TRI o del modelo de Rasch. Este análisis produce una página completa de información por cada reactivo.

    Fig.11 – Modelo logístico para análisis de reactivo

    En la versión 3.0 de KALT-CRITERIAL se incluirá el modelo de Rasch además del modelo biparamétrico, de modo que el usuario elija el modelo que desee. Los modelos de 3 y de 4 parámetros están fuera del modelo concebido para KALT-CRITERIAL, por lo que no se incluirán en futuras versiones.

    Arriba

  5. Validez de diseño de la prueba. Se sugieren que los reactivos cubran todo el rango de la escala que pretende medir el desempeño del dominio. Con excepción de juicios cualitativos a priori, no se dispone de métodos para analizar la validez del diseño en forma objetiva, por lo tanto se desarrolló un modelo para este proyecto. El modelo se denomina "Recta de diseño 20-80", que no es más que un modelo de distribución uniforme para las dificultades de los reactivos en el intervalo de 20 a 80 (en porcentaje de aciertos) o su equivalente de –1.38 a +1.38 en unidades logísticas. Esta distribución proporciona un medio objetivo y cuantitativo para calcular la densidad de los reactivos. Las dificultades observadas pueden compararse de manera simple contra valores esperados. El modelo incluye conceptos tales como la distancia absoluta media, la diferencia media cuadrática , con los cuales se obtienen valores que favorecen que el usuario revise la calidad de su diseño, sin caer en odiosas comparaciones subjetivas.

    Fig.12 – Recta de diseño 20-80 y distribución de los reactivos

    Conviene mencionar aquí que la recta de diseño 20-80 se puede utilizar para realizar estudios de validez de constructo usando el modelo propuesto por Beaton y colaboradores, "anclando" los reactivos a niveles de dificultad, por ejemplo fracciones desviación estándar. Se está en estudio para incluir el método de Haertel en esta parte del programa.

    Fig.13 – Validez de constructo usando la recta de diseño 20-80

    El reporte incluye asimismo la gráfica de frecuencias de reactivos por dificultad, pero se ha visto que la recta de diseño 20-80 es una herramienta más completa para analizar y dictaminar la validez de la prueba.

    Fig. 14 – Diagrama de frecuencias de la dificultad de los reactivos

    Otras herramientas de análisis serán incluidas en futuras versiones del software, se está evaluando la conveniencia de escalamiento multidimensional o análisis factorial.

    Arriba

  6. Análisis de confiabilidad de la prueba. No se dispone de un modelo aceptado ampliamente para PRC, aunque se dispone de varias propuestas de autores para juzgar la confiabilidad de la decisión de maestría. Se ofrecen dos elementos de análisis dentro de KALT-CRITERIAL: uso de tablas de expectativas, de acuerdo con el modelo de Cox-Vargas, reportado posteriormente por Popham y el uso de la fórmula de Livingston, como modificación del alfa de Cronbach. El programa no solamente proporciona la confiabilidad sino también el estimado de longitud para confiabilidades de 0.9 y 0.95 tal y como se calcula con la fórmula de Spearman-Brown. Este modelo será mejorado en la siguiente versión porque se incluirá un modelo sugerido por Swaminathan y col., o el de Subkoviak usando el coeficiente Kappa de Cohen. Ya se dispone de un modelo que proporciona el valor óptimo de alfa para una prueba cuya validez sigue el modelo de diseño 20-80.

    Arriba

  7. Definición de estándares. El establecimiento de estándares no es una tarea fácil. Se ha sugerido a los usuarios de KALT-CRITERIAL que tengan cuidado en el diseño y que traten de definir sus niveles de maestría usando un grupo de control como contraste a la población objetivo. En este caso se necesita un modelo usando la ROCC o similar, para tener elementos de decisión que minimicen los posibles falsos positivos o falsos negativos.

En pruebas de un solo evento – como es el caso de las pruebas del Ceneval – no se tiene una interacción educativa con el estudiante, por lo tanto las pruebas deben discriminar entre aptos y no aptos usando la información disponible a partir de la prueba. Esta situación requiere el uso de una población de control o el uso de instrumentos de amplia varianza; esto puede parecer contradecir lo que los autores postulan de que las PRC no necesitan tener una amplia varianza, sin embargo en la práctica se ha visto que la varianza en necesaria para tomar decisiones más confiables.

El software contiene dos modelos actualmente para definir los niveles de maestría: criterio absoluto (donde la decisión solo toma en cuenta el resultado obtenido a nivel global) y criterio relativo (donde la decisión debe considerar las áreas que forman a la prueba, con lo que la decisión global depende de los resultados parciales).

Otros modelos asociados con el patrón de respuestas de cada estudiante o el uso de un conjunto de reactivos de "requisito" o modelos bayesianos se han planteado, pero por el momento de ha visto que los responsables de pruebas y las instituciones tienen dificultades para interpretar este tipo de modelos.

Arriba

  1. El software como parte de una familia de programas de evaluación. El programa está conectado con el programa administrador "Banco de Reactivos". Se trata de un módulo organizador de la base de datos, dispone de elementos de edición con un editor propio en ambiente Windows, genera las pruebas y las claves de respuestas. El programa incluye un módulo de administración para asignar permisos y autorizaciones. Los archivos tienen formato estándar RTF y el programa construye pruebas en archivos para ser aplicados en exámenes de lápiz y papel o por computadora (en línea).

Fig.15 – Ejemplo de la interfaz del Banco de Reactivos

El segundo módulo relacionado con este programa es el módulo de "Examen en Línea" (KALT-ON LINE), que permite aplicar exámenes en red local dentro del ambiente Windows 95/98/NT, administra diferentes pruebas previamente construidas desde el Banco de Reactivos. Pueden emplearse pruebas multimedia, aprovechando cualquier objeto de Windows.

El software se presenta en dos módulos: (1) módulo administrador, donde un supervisor puede monitorear el área de aplicación de la prueba, enviar y recibir mensajes de los estudiantes, resolver problemas operativos, comprobar el avance de los estudiantes, entre otras opciones.

Fig.16 – Ejemplo del módulo administrador

(2) Módulo examinador, donde el estudiante cuenta con una interfaz simple y amistosa para contestar su prueba y recibir retroalimentación dependiendo del tipo de prueba.

Fig.17 – Ejemplo de la interfaz del módulo examinador

KALT-ON LINE se ha empleado desde 1999 para certificar competencias de áreas específicas, tal como médico veterinario, donde se necesita una interacción con el estudiante para simular casos clínicos. En esta prueba en particular el software proporciona retroalimentación de manera interactiva al estudiante, de este modo es posible tomar decisiones sobre la salud del paciente y sus efectos (positivo, negativo, neutral), de acuerdo con los efectos obtenidos el responsable de la prueba tiene mejores elementos para evaluar el desempeño del estudiante.

Se tienen en desarrollo dos módulos adicionales de KALT-ON LINE: prueba adaptativa y simulador, ambos para pruebas de criterio para evaluación de competencias profesionales.

Arriba

Referencias

AERA (2000) "AERA position statement concerning high-stakes testing in PreK-12 education". AERA Policies, Standards and Statements. July 2000.

AERA, APA, NCME (1999) "Standards for educational and psychological testing", Washington. AERA

 

Beaton A.E. & Allen N.L. (1992) "Interpreting scales through scale anchoring", Journal of Educational Statistics, Summer, Vo. 17, pp 191-204

Berk R.A. (1986) "A consumer’s guide to setting performance standards on criterion-referenced tests". Review of Educational Research, Spring. Vol. 56, N.1, pp 137-172

Ceneval (2000) "Estándares de calidad para instrumentos de evaluación educativa". México. Ceneval, 52 pp.

Ceneval (2000) "Manual técnico". México. Ceneval, 64 pp.

Cizek G.J. (1996) "Setting passing scores", Educational Measurement:: Issues and practice. Summer, pp. 20-31

Chuang D.T., Chen J.J. & Novick M.R. (1981) "Theory and practice for the use of cut-scrores for personnel decisions", Journal of Educational Statistics, Summer, Vol. 6,N.2, pp 129-152

Garcia-Quintana R.A. & Mappus M.L. (1980) "Using norm-referenced data to set standards for a minimum competency program in the State of South Carolina: a feasibility study", Educational Evaluation and Policy Analysis, March-April, Vol. 2, N.2, pp. 47-52

Glaser R. (1963) "Instructional technology and the measurement of learning outcomes". American Psychologist, Vol. 18, pp 519-521

Haertel E. (1985) "Construct validity and criterion-referenced testing". Review of Educational Research. Spring. Vol. 55, N.1, pp 23-46

Hambleton R.K. et al. (1978) "Criterion-referenced testing and measurement: A review of technical issues and developments", Review of Educational Research, Winter, Vol.48, pp 1-47.

Hofstee W.K.B. (1983) "The case of compromise in educational selection and grading. In S.B. Anderson & J.S. Helmick (Eds), On Educational testing, pp. 109-127, San Francisco: Jossey-Bass

Hosmer D.W. & Lemeshow S. (1989) "Applied Logistic Regression". New York, John Wiley & Sons, Inc.

KALT-CRITERIAL, KALT-ITEM BANK AND KALT-ON LINE (1998-2000) "Manual de usuario", Ingeniería y Estadística Especializada, México.

Nitko A.J. (1980) "Distinguishing the many varieties of criterion-referenced tests", Review of Educational Research, Fall, Vol.50,N.3, pp 461-485

Popham J.W. (1973) "Criterion-referenced measurement", Chap. 7. Educational evaluation. Prentice Hall, N.J. pp 126-168

Subkoviak M.J. (1988) "A practitioner’s guide to computation and interpretation of reliability indices for mastery tests", Journal of Educational Measurement, Spring, Vol. 25, N.1, pp 47-55

Swaminathan H., Hambleton R.K. & Algina J. (1974) "Reliability of criterion-referenced tests: a decision-theoretic formulation", Journal of Educational Measurement, Vol. 11, N. 4, pp 263-267

Tristán L.A. & Vidal U.R. (1999) "Modelo de diseño para validez de constructo en pruebas referidas a criterio" Notas sobre Evaluación Criterial, IEESA-Ceneval. Octubre . N.10. pp 1-8

Tristán L.A. (2000) "Uso de tablas de expectativas y validez en pruebas referidas a criterio" Notas sobre Evaluación Criterial, IEESA-Ceneval. Marzo. N.12. pp 1-7

 

Wright B.D. & Lunz M.E. (1987) "Standards combining expert judgment, mastery level and statistical confidence", Memorandum #37, MESA Psychometric Laboratory, Dept. of Education, University of Chicago, January, pp 1-21

Arriba