MODELO PARA CALIFICACIÓN Y ANÁLISIS POR COMPUTADORA DE CUESTIONARIOS REFERIDOS A CRITERIO.

Por: Dr. Agustín Tristán López.

Contenido:

Presentación.
Objetivos.
 

Sobre el sustentante.

 

Sobre el instrumento.

 

Sobre el diseño.

Punto de corte.
Niveles de contingencia.
Criterios de asignación de niveles de competencia.
 

Criterio 1: ¿Cuántos reactivos?

 

Criterio 2: ¿Cuántos y cuáles reactivos?

 

Criterio 3: ¿Cuántos y cuáles reactivos y cómo se contestan?

 

Criterio 3.1: Uso de "patrones de trayectoria".

 

Criterio 3.2: Uso de "patrones numéricos".

Análisis de patrones.
 

Casos particulares de análisis de patrones.

Análisis de Reactivos.
Dictamen técnico.
Reportes globales e individuales.
KALT CRITERIAL.
Conclusiones.
Bibliografía.

PRESENTACIÓN

LA CALIFICACIÓN referida a criterio, en primera instancia es una forma de asignar el juicio de valor al desempeño de una persona que se somete a una o varias pruebas. En este caso se establecen niveles de competencia contra los cuales se contrastan los logros del individuo. En caso de que la persona rebase estos niveles se asigna automáticamente el valor de "suficiente", "bien", "muy bien", según sea el grado de dominio mostrado o, por el contrario, se asignará una calificación de "insuficiente", "inhabilitado", "incompleto", si el dominio no rebasa los dominios asignados.

Para la calificación referida a criterio puede establecerse un solo nivel de competencia (correspondiente a "suficiente-insuficiente", "pasa-no pasa"), pero nada impide establecer diferentes niveles para fines de ubicación más precisa de la persona. La escala puede ser numérica (0-10, 0-100, 0-1), literal (A-D, NA-S-B-MB) o verbal ("insuficiente-suficiente", "no acreditado – suficiente – bien – muy bien").

Es claro que la calificación referida a criterio no depende en absoluto del desempeño grupal, una vez que el criterio está bien definido a juicio de expertos en la materia. Por ello puede tenerse que como resultado de una buena instrucción se tenga un 100% de personas que satisfacen el criterio o, por el contrario, puede darse el caso de grupos donde nadie lo satisface. Estas son las diferencias respecto de la evaluación referida a una norma, donde el desempeño grupal define los niveles de aceptación.

No es objetivo de este documento presentar los aspectos relacionados con el diseño de este tipo de pruebas; en cambio, se enfoca a los elementos propuestos para el modelo de calificación con el que se diseñó KALT-CRITERIAL, programa enfocado a la calificación y análisis de pruebas referidas a criterio. En lo sucesivo, cuando se haga referencia a KALT-CRITERIAL en realidad se están indicando las características del modelo por computadora propuesto. Como se verá, este modelo incluye los últimos avances en la materia, de acuerdo con la referencia más actualizada en la literatura de este campo, así como modelos propios resultado de la experiencia del autor.

Arriba

OBJETIVOS

Son tres los objetivos que persigue el modelo:

Arriba

Sobre el Sustentante

Calificar a los sujetos, alumnos o sustentantes, obteniendo el número de aciertos y errores, asignando puntuaciones o calificaciones por tema, área y global. Finalmente asignar un dictamen sobre su nivel de competencia, correspondiente al grado de dominio, de acuerdo con las especificaciones dadas por el evaluador.

Arriba

Sobre el Instrumento

Calificar al instrumento y retroalimentar al evaluador con relación a la calidad del examen. Identificar aciertos y fallas del cuestionario con objeto de que los errores o deficiencias de construcción del instrumento no recaigan en los sustentantes. Verificar que el instrumento cumple las especificaciones de diseño y brindar recomendaciones para corregir, depurar o mejorar la construcción de futuros reactivos y exámenes.

Arriba

Sobre el Diseño

Corroborar que el diseño es sensato, que las especificaciones corresponden con exigencias razonables de criterio. Retroalimentar a los jueces o responsables de la evaluación en las características del diseño y que sus especificaciones son alcanzables por los sujetos y pueden ser sostenidas desde un punto de vista académico y político.

A continuación se explican las características generales del modelo.

Arriba

PUNTO DE CORTE

La definición del punto de corte es uno de los problemas esenciales de la evaluación referida a criterio. La posibilidad de disponer de herramientas de apoyo a los evaluadores para poder definir y depurar su punto de corte es de importancia primordial, por lo que KALT-CRITERIAL auxilia al evaluador con elementos de decisión muy importantes.

Hay varios métodos para definir puntos de corte de diseño, así como también para obtener puntos de corte experimentales. En KALT-CRITERIAL se aceptan los puntos de corte de diseño y se emite un reporte para que el evaluador pueda estimar los valores reales obtenidos con la población medida. Los puntos de corte de diseño se pueden elegir en función de 3 criterios distintos, como se describe en las siguientes secciones,. Básicamente los puntos de corte de diseño son determinados por un comité de expertos en el área a evaluar y se establecen como niveles de competencia para los cuales una persona está apta para un desempeño específico (profesional, admisión, etcétera.)

Dentro de los métodos de asignación de punto de corte se utiliza en KALT-CRITERIAL un método de compromiso, que trata de equilibrar las decisiones académicas con las políticas para la asignación del punto de corte. En particular, se emplea el método de compromiso de Hofstee para decidir el punto de corte, de acuerdo con la curva real, con una curva ajustada (normal) y con la curva modificada por dificultad del instrumento que es una modificación de diseño exclusivo propuesta en KALT-CRITERIAL.

Arriba

NIVELES DE CONTINGENCIA

Los niveles de competencia se establecen en términos del dominio de las personas y de las características de los reactivos. Se establece, por lo tanto, un conjunto de tablas de doble entrada de la siguiente forma:

Pueden definirse de 2 a 5 niveles de competencia en KALT-CRITERIAL, por ejemplo:

  1. INSUFICIENTE-SUFICIENTE

  2. INSUFICIENTE-TITULACIÓN-CERTIFICACIÓN

  3. INFERIOR-BÁSICO-COMPETENTE-NOTABLE

  4. MÍNIMO-BÁSICO-MEDIO-ALTO-SUPERIOR

Los nombres de los niveles son opcionales dentro de KALT-CRITERIAL.

En los reactivos pueden definirse también de 2 a 5 niveles, por ejemplo:

  1. ESENCIAL-COMPLEMENTARIO

  2. ESENCIAL-MEDIO-AVANZADO

  3. ESENCIAL-IMPORTANTE-MEDIO-AVANZADO-COMPLEMENTARIO

Arriba

CRITERIOS DE ASIGNACIÓN DE NIVELES DE COMPETENCIA

Con base en estos niveles se pueden establecer tres criterios para este modelo:

Arriba

Criterio 1: ¿Cuántos reactivos?

Calificación referida a puntos de corte definidos en términos de número de aciertos. Aquí se establece el valor de "suficiente" o de "insuficiente" de acuerdo con el porcentaje de aciertos de cada persona.

En este caso no se hace distinción ninguna de los niveles de los reactivos, sino exclusivamente se toma en cuenta cuántos reactivos son correctos para adjudicar el nivel de competencia.

Se requiere definir para este criterio:

  1. Número total de reactivos del nivel

  2. Nivel de competencia

  3. Número mínimo de aciertos para el nivel

Por ejemplo se puede plantear el Criterio 1:

Total de Reactivos 300
Nivel de competencia No acreditado Acreditado
Mínimo de reactivos Menos de 60% 60% o más

En forma gráfica se puede representar de esta manera:

Aquí basta con que un sustentante tenga el número de aciertos, independientemente de los reactivos que se contesten para asignar un nivel de competencia. KALT-CRITERIAL emite el dictamen y dispone de la capacidad de calcular el error de medida individual, en caso de que el evaluador desee tomarlo en cuenta en futuras aplicaciones o en la decisión final.

Arriba

Criterio 2: ¿Cuántos y cuáles reactivos?

Calificación referida a los puntos de corte estableciendo el valor de "suficiente" o de "insuficiente" de acuerdo con la clasificación por niveles de los reactivos. En este caso se requiere disponer de la calificación de los reactivos y el evaluador debe haber construido las tablas de validez de contenido correspondientes a cada uno de los niveles, de manera de poder especificar, para cada tabla:

  1. Nivel de competencia

  2. Nivel de complejidad

  3. Número total de reactivos del nivel

  4. Número mínimo de aciertos para el nivel

  5. Error máximo aceptable

Por ejemplo para este Criterio se puede establecer el criterio 2:

Total de Reactivos del cuestionario 300    
Nivel de competencia Insuficiente Titulación Certificación
Nivel de complejidad Básico Complementario  
Total de reactivos 200 100  
Mínimo de reactivos 150 50  
Error máximo 25 10  

La representación gráfica de este criterio es la siguiente:

Así se tiene que de los 300 reactivos que forman el cuestionario, 200 se clasifican como "Básicos". Si una persona no alcanza a responder correctamente por lo menos 150 reactivos, con un error máximo aceptable de 25 reactivos en su patrón de respuesta, entonces se considera "Insuficiente". Una persona que queda en este nivel no se evalúa en los siguientes niveles, inclusive en el caso de que tuviera al 100% el nivel Complementario, ya que el criterio de los evaluadores o jueces es que debe demostrar un nivel de competencia para poder avanzar en la calificación.

Cuando la persona responda 150 o más reactivos, con un error de 25 reactivos se considera que alcanza la "Titulación".

Una vez pasado el nivel "Básico", se revisan los 100 reactivos considerados "Complementarios". Se pide que por lo menos una persona que tiene la "Titulación" responda a 50 reactivos o más para alcanzar la "Certificación".

Para calificar a una persona se debe determinar no solamente el porcentaje de aciertos (o el conteo del número de aciertos), sino también el error de la media individual. Este error es un concepto exclusivo de KALT-CRITERIAL que consiste en determinar de manera automática que la persona contestó a los reactivos más fáciles que su nivel y dejó de contestar a los que están por arriba de su nivel de competencia. Este cálculo se hace por medio de un análisis de varianza y conduce a un "error" de medida. El evaluador deberá establecer cuál es el error máximo admisible que se considera para aceptar que el porcentaje de aciertos es fidedigno del dominio real de la persona.

El análisis del error en la respuesta podría ser realizado por medio de un análisis de Rasch o de la Teoría de la Respuesta al Item, pero se prefirió un análisis de varianza, porque se evita el buscar el ajuste a una de las curvas teóricas contenidas en estos tipos de análisis, brindando una interpretación más sencilla para los evaluadores.

Arriba

Criterio 3:¿Cuántos y cuáles reactivos y cómo se contestan?

En este criterio se incluyen "Patrones" de respuesta especificados por los evaluadores. No solamente se especifican los datos dados en el criterio 2, sino también se pueden establecer las formas admisibles de respuestas de los sustentantes.

De este criterio se establecen, a su vez, dos formas diferentes, dependiendo del tipo de construcción de instrumento y de su forma de calificar.

Arriba

Criterio 3.1: Uso de "Patrones de Trayectoria"

Los patrones de trayectoria especifican los reactivos que pueden aceptarse para definir los niveles de competencia. En este caso no se hace un cálculo automático del error de medida de la persona, sino que debe cotejarse con el patrón de respuestas dado por el evaluador. Los evaluadores pueden definir hasta 10 patrones en KALT-CRITERIAL. Para cada patrón se define asimismo el error aceptable o discrepancia que puede aceptarse para decir que la medida de una persona es la correcta.

Arriba

Criterio 3.2: Uso de "Patrones Numéricos"

Un patrón numérico permite establecer valores diferenciados a los reactivos y al tipo de respuesta que se emite para cada uno de ellos. Aquí se pueden tener estos ejemplos:

  1. Uso de reactivos de elección simple, donde la respuesta se emite por elección (llenado del alvéolo) o no elección (no llenado). La respuesta se clasifica en positiva, negativa o neutra por los evaluadores y se califica la respuesta de acuerdo con una guía de respuesta.

  2. Uso de reactivos con crédito parcial. En este caso se define una respuesta correcta o preferible, pero las otras opciones pueden ser aceptables en función de los criterios de los evaluadores. De acuerdo con la respuesta del sustentante se acreditan puntos.

  3. Grupos de reactivos (casos, problemas, áreas, etc.). Aquí se asignan conjuntos de reactivos que se califican de manera independiente. Se califica cada conjunto para emitir la calificación de la persona.

Todas las formas de establecer criterios de aceptación en un examen pueden incluirse en alguno de los tres criterios de KALT-CRITERIAL. Los criterios son excluyentes, es decir, si se elige uno de los criterios no se puede "mezclar" con otro. No obstante, el evaluador puede elegir que KALT-CRITERIAL realice los análisis y dictámenes con los tres criterios con objeto de poder comparar los diversos resultados obtenidos.

Arriba

ANÁLISIS DE PATRONES

La forma de responder de una persona es importante, ya que en un cuestionario referido a criterio participan no solamente "cuántos" (Porcentaje de aciertos) reactivos se contestaron correctamente, sino "cuales" se contestaron (Patrón de respuestas) y "como" se contestaron (Error de patrón).

El error de patrón es un concepto exclusivo de KALT-CRITERIAL (para mayores detalles ver Tristán, 1996-1998), que ni siquiera es vislumbrado por los autores clásicos que tratan la evaluación referida a criterio. Puede afirmarse que lo más cercano a este concepto es el ajuste que se hace en el análisis de Rasch o, mejor aún, con el análisis de "Facetas" basado en Rasch, aunque no tiene la finalidad de medición criterial en concreto.

El análisis de patrones permite identificar qué error se tiene en las respuestas de las personas ante un conjunto de reactivos ordenados de acuerdo con el nivel de complejidad asignados por los jueces. En un cuestionario de 10 preguntas con un mínimo de aceptación de 6 respuestas correctas, puede ocurrir que dos personas contesten 6 de las preguntas con patrones completamente diferentes: una de ellas puede haber contestado las 6 preguntas consideradas como esenciales y dejar de contestar las 4 complementarias; este caso se considera "dentro de patrón". La segunda persona pudo haber contestado sólo 2 esenciales y las 4 complementarias, este caso sería el extremo "fuera de patrón".

La primera persona, "dentro de patrón" contesta de acuerdo con lo que los jueces consideran como un patrón aceptable, por lo que se tiene un "error mínimo", en cambio la segunda persona no tiene un patrón de respuestas aceptable y alcanza el "error máximo". El cálculo del error se efectúa por medio de un análisis de varianza exclusivo del modelo de KALT-CRITERIAL.

Arriba

Casos particulares de análisis de patrones

Existen varias posibles formas de analizar los patrones. La primera consiste en tomar el orden asignado por los jueces en relación con la complejidad del cuestionario. A este caso se le denomina "análisis de patrones por diseño", atendiendo a que el orden corresponde con la clasificación dada al diseñar el cuestionario. El evaluador deberá decidir el error máximo que puede aceptarse para e patrón de respuestas dado por el sustentante.

La segunda forma se obtiene cuando se ordenan los reactivos de acuerdo con el grado de dificultad experimental de los reactivos. El grado de dificultad no corresponde necesariamente con la complejidad atribuida por los jueces y, por lo tanto, no necesariamente correlaciona con el diseño del cuestionario. Este caso se denomina "análisis de patrones experimental". El evaluador deberá decidir el error máximo que puede aceptarse para el patrón de respuestas dado por el sustentante.

Hay un caso particular de patrón relacionado con el Criterio 3.2, cuando se incluyen reactivos positivos, negativos y nulos. Se tiene en este caso un análisis simplificado de patrón que se denomina aquí "Discriminación individual con patrón de respuesta". Se hace por medio de un cálculo de las respuestas "Positivas" y de las "Negativas" que responde al sustentante, la diferencia de estas respuestas conduce a un estimador de "discriminación" individual, entendiendo por ello un estimador de la calidad de las respuestas de cada sustentante.

Arriba

ANÁLISIS DE REACTIVOS

La forma de analizar los reactivos puede hacerse de acuerdo con los métodos clásicos que involucran a la dificultad y a la discriminación, pero ocurre que una herramienta tan poderosa como la Norma Discriminativa utilizada en KALT se vuelve muy exigente para los reactivos referidos a criterio, especialmente en los niveles inferiores de competencia, donde se puede esperar una respuesta del 100% de las personas lo cual conduce a una discriminación nula. Desde el punto de vista de funcionamiento del reactivo en relación con el criterio, la discriminación puede carecer de utilidad. En este caso puede convenir un indicador menos exigente, por lo que KALT-CRITERIAL incluye de manera complementaria un análisis de reactivos empleando la dificultad y la correlación punto-biserial.

En el caso de la correlación punto-biserial el usuario puede establecer una "Norma" de tipo constante (que corresponde con una "Exigencia" decreciente con la dificultad, si se compara con el modelo KALT). El evaluador podrá establecer el nivel mínimo que desea para la norma.

Con objeto de hacer más explícita la representación de resultados, se incluye un escalímetro, exclusivo de KALT-CRITERIAL, donde se puede ver de manera gráfica y sencilla la posición del reactivo en dificultad, discriminación y correlación punto-biserial.

Arriba

DICTAMEN TÉCNICO

Un análisis del cuestionario no sería completo sin un dictamen técnico. El dictamen que ofrece KALT-CRITERIAL incluye varias páginas de información detallada para que el evaluador tome decisiones respecto a su instrumento:

  1. Gráfica de reactivos en el plano DIFICULTAD-DISCRIMINACIÓN

  2. Gráfica de reactivos en el plano DIFICULTAD-CORRELACIÓN PUNTO BISERIAL

  3. Determinación de puntos de corte experimentales

  4. Gráfica de frecuencias acumuladas para determinación del punto de corte

  5. Tablas de expectativas del instrumento con los reactivos clasificados por nivel de dominio

  6. Tabla de clasificación de los reactivos por el nivel de dominio y nivel de competencias

  7. Análisis de confiabilidad. Estudio de dimensión del instrumento para confiabilidades de diseño

  8. Comparativo diseño-experimentación para la tabla de validez del contenido del cuestionario

Este dictamen se debe emitir al conjuntarse un número razonable de personas que contestan un cuestionario. Si bien la calificación individual no se ve afectada por el comportamiento poblacional, el evaluador debe poder analizar la eficiencia de su instrumento al disponer de suficientes sujetos de análisis. De este modo podrá verificar si sus hipótesis de diseño corresponden con los resultados experimentales, si el punto de corte medido coincide con el valor de diseño, si el comportamiento global de los reactivos corresponde con los valores contenidos en las expectativas, si la dimensión del cuestionario es suficiente para la confiabilidad buscada, etcétera.

Arriba

REPORTES GLOBALES E INDIVIDUALES

KALT-CRITERIAL emite reportes globales para entregar a la institución, así como reportes de retroalimentación individual.

Los reportes globales incluyen la información alfabética, descendente o por folio de cada institución. Puede ser emitidos en índice CENEVAL, porcentajes de aciertos, número bruto de aciertos, error de medida, diferencia respecto al criterio, etc. La gran variedad de formas de reportar los resultados hace de KALT-CRITERIAL una herramienta muy poderosa para el evaluador y la institución. Al igual que KALT se emite un reporte tipo "base de datos" para ser leído por otros programas (Excel, Dbase, FoxPro, etcétera).

Los reportes individuales pueden contener una o más páginas de información específica para entregar al sustentante, dependiendo del nivel de especificidad que el evaluador requiera.

Arriba

KALT CRITERIAL

El programa que se ha diseñado para la calificación de este tipo de cuestionario es KALT-CRITERIAL, desarrollado en ambiente Windows 95, incluyendo numerosas capacidades de captura, cálculo, estadísticas y reportes utilizados en KALT (Programa de calificación de cuestionarios referidos a norma). Algunas de las herramientas desarrolladas para KALT-CRITERIAL se han empleado en otros programas, en particular en el programa para calificación de los exámenes de Calidad Profesional para Médicos Veterinarios, especialistas en Perros y Gatos, aplicado por el CENEVAL con mucho éxito.

Arriba

CONCLUSIONES

Se presentó un modelo de calificación para cuestionarios referidos a criterio, cuyo objetivo no está solamente en calificar a las personas, sino también en retroalimentar a los constructores de instrumentos y a los expertos o jueces que establecen sus especificaciones.

El modelo incluye capacidades provenientes de las investigaciones más recientes de la literatura junto con modelos propios.

El modelo está concretado en un programa de cómputo denominado KALT-CRITERIAL.

Arriba

BIBLIOGRAFÍA

Arriba