Al igual de lo que ocurre con cualquier línea de investigación, el desarrollo de la validación de instrumentos como línea de investigación tiene: dos fases o momentos, la primera fase es cualitativa y corresponde a la validez de contenido, la segunda fase es cuantitativa y corresponde a la evaluación de las propiedades métricas del instrumento.
De modo que, una vez construido el instrumento documental para medir variables subjetivas y este cuenta con la validez de contenido, corresponde evaluar sus propiedades métricas, para lo cual se hará uso de la herramienta denominada estadística.
Para poder evaluar estas propiedades métricas se requiere de los datos que provienen de la aplicación preliminar del instrumento, a esta aplicación preliminar se le denomina “prueba piloto”, y se realiza sobre un conjunto de individuos que también son elementos de la población de estudio.
Esto significa que, por cada propiedad métrica que se desee evaluar, se va a requerir de una “prueba piloto”, del mismo modo, de no satisfacer una determinada métrica, se tendrá que reformular el instrumento para luego volver a aplicar una nueva “prueba piloto” y seguir con este procedimiento, hasta satisfacer las necesidades métricas del instrumento.
1. La validez de constructo
Busca asegurar la mejor concordancia entre el significado teórico del concepto a evaluar en las unidades de estudio, con el concepto operacional de la variable orientado a su medición, para lo cual es fundamental la identificación de las dimensiones del contenido previamente construido.
Desde el punto de vista estadístico, un instrumento de medición que cuenta con 20 ítems o reactivos, cuenta con 20 dimensiones, sin embargo, desde el punto de vista de la medición, es preciso identificar dimensiones gruesas para la medición de una variable subjetiva, por lo que esos 20 ítems o reactivos tendrán que ser agrupados.
Estas nuevas agrupaciones conformarán las verdaderas dimensiones, con lo que, habremos conseguido un instrumento con cuatro o cinco dimensiones, cada una de ellas respaldadas por un conjunto de ítems o reactivos, lo cual otorga estabilidad en la medición tanto al instrumento como a cada una de sus dimensiones.
Si partimos de un instrumento con 20 ítems o reactivos que en principio conformarían un número igual de dimensiones y los agrupamos para conseguir cuatro o cinco, entonces hablamos de “reducción de dimensiones”, un procedimiento que se puede realizar con la ayuda del software estadístico para un desarrollo más ágil.
Para realizar una reducción de dimensiones (agrupamiento de ítems) se requiere en primer lugar asegurar de que, todos ellos contribuyen en el resultado final del instrumento (la suma total) más o menos en la misma proporción, dicho de otro modo, luego de aplicar la “prueba piloto» y analizar los resultados, los ítems deben aportar en gran medida al resultado final.
Para entender mejor todo esto, vamos a plantear una analogía con un modelo de regresión lineal múltiple, donde existen variables predictoras y variable a predecir, en el instrumento las variables predictoras serían los ítems o reactivos y la variable a predecir, sería el resultado del instrumento como la suma total o resultado global.
Siguiendo con la analogía para construir un modelo de regresión lineal múltiple, se debe asegurar que las variables predictoras, realmente sean eso mismo, predictoras debidamente probados, en el caso del instrumento, se debe probar primero que los ítems o reactivos contribuyen en similar magnitud a la suma total o resultado global del instrumento.
Son mejores los ítems que exhiben mayores índices de variabilidad expresado en términos de desviación estándar, los ítems o reactivos que muestren los menores niveles de variabilidad tendrán que ser modificados o retirados, no existe un valor límite, se trata del propio criterio del investigador para hacer esta selección.
Una vez calculada la suma total o resultado global procedemos a realizar una correlación de cada uno de los ítems con la suma total, son mejores los ítems que muestren los mayores índices de correlación; y deberán ser modificados o retirados aquellos ítems que tengan los índices de correlación más bajos.
Una vez realizada la selección de los ítems de acuerdo con su variabilidad y grado de correlación que exhiben con la suma total, procedemos a agrupar los ítems de acuerdo a su afinidad conceptual, a estos grupos se les conoce como dominios o dimensiones, las herramientas estadísticas a utilizar son técnicas de agrupamiento como el análisis factorial o el clustering.
2. La fiabilidad
Para plantearlo en términos simples se puede desdoblar la validez de un instrumento, en una validez hacia adentro y una validez hacia afuera. La validez hacia adentro incluye la validez de contenido, la validez de constructo y la fiabilidad, mientras que la validez hacia afuera incluye la estabilidad, la validez de criterio y el rendimiento del instrumento.
La fiabilidad es conocida también como confiabilidad y se refiere a la capacidad discriminante de un instrumento, este principio se busca en toda medición, por ejemplo en el diagnóstico médico, una prueba diagnóstica debe ser capaz de diferenciar entre el paciente sano y el enfermo, es claramente un índice discriminante, es un clasificador.
Por tanto, la fiabilidad de un examen de conocimientos, de esos que se aplica en el colegio o en la universidad, se refleja en la capacidad de entregar un resultado aprobatorio a los alumnos que estudiaron y resultado desaprobatorio a los alumnos que no aprovecharon el curso o la asignatura, debe poder discriminar entre el que estudió y no estudió.
Si por alguna razón un profesor de matemáticas aplica un examen de aritmética básica, compuesta por 20 ejercicios a un conjunto de niños y los ejercicios son tan sencillos que todos sacan 20 puntos, entonces ese examen no es fiable, si en el caso contrario, todos los ejercicios son tan difíciles que todos los niños sacan cero puntos, este otro examen tampoco es fiable.
Un examen de conocimientos debe tener a cada una de sus preguntas o ejercicios con un grado de dificultad tal, que sea posible de acertar o desarrollar adecuadamente por una parte de los estudiantes, del mismo modo y en extensión a lo mencionado para las preguntas o ejercicios, la suma total o resultado global también debe exhibir esa capacidad discriminante.
La fiabilidad es un concepto que se aplica al instrumento, por tanto requiere de un coeficiente que pueda expresar no solamente la capacidad discriminante del instrumento, sino su relación con la capacidad discriminante de cada ítem, ello va requerir de la construcción de un algoritmo matemático que pueda expresarlo en un solo coeficiente.
La fiabilidad es conocida también como consistencia interna, esto porque valora los altos índices de correlación de cada ítem con la suma total, consecuencia de la alta variabilidad de los ítems reflejada en la suma total; por esta razón, una forma global de evaluar la correlación de cada uno de los ítems con el puntaje total, es mediante el método de la varianza de los ítems.
Dado que analizar en forma aislada cada correlación ítem-total sería impráctico para sacar una conclusión acerca de la consistencia interna, existe un coeficiente que analiza en forma global, la correlación de cada uno de los ítems respecto de la suma total y se denomina Alfa de Cronbach, el más conocido de los índices de fiabilidad.
El Alfa de Cronbach es un coeficiente que varía entre cero y uno, mientras más alto sea su valor, se considera al instrumento más consistente o más fiable, no existe un punto de corte para decir que es fiable o no fiable, sin embargo existe el consenso teórico de que cuando este coeficiente es igual o mayor al 80% se considera de muy buena consistencia.
Si el índice de consistencia interna está por debajo del 80% debemos revisar todas las correlaciones ítem-total, las correlaciones más bajas requieren una modificación en la redacción del ítem o de sus alternativas, con la finalidad de alcanzar mayor variabilidad y en algunos casos deberemos retirar estos ítems que afectan a la “consistencia interna”.
3. La estabilidad
Es la capacidad de un instrumento de obtener resultados independientes del operador, del instrumento y de las circunstancias accidentales de la medición; implica reducir al máximo o eliminar los “sesgos de medición”, los resultados estables son aquellos que son repetibles y reproducibles.
La estabilidad es una propiedad asegurada en los instrumentos mecánicos, si subimos a Pedro en una balanza y resulta que pesa 70 Kilogramos, ese será el resultado que siempre encontremos, cuando lo subamos a la misma balanza una y otra vez, esto es independiente del operador, esto también es deseable en los instrumentos documentales.
- La repetibilidad se confirma cuando un investigador al utilizar un mismo instrumento para evaluar a un “mismo individuo” en repetidas ocasiones, obtiene los mismos resultados, esta propiedad se consigue escribiendo el manual de aplicación del instrumento, de modo que en el proceso de la medición se pueda controlar las circunstancias de la medición.
La reproducibilidad implica que varios investigadores, utilizando el mismo instrumento sobre un mismo individuo, obtengan los mismos resultados. A esto también se le denomina “estabilidad entre operadores” y es muy fácil de alcanzar cuando de “instrumentos mecánicos” se trata, pero no tanto cuando trabajamos con “instrumentos documentales”.
Si de aplicar un examen de conocimientos se trata, puede no parecer lógico aplicar el instrumento repetidas veces al mismo individuo, con la finalidad de conseguir resultados estables, es aquí donde conviene redefinir el concepto de instrumento, si aplicamos un examen de 20 preguntas a un conjunto de estudiantes…
El instrumento no es el examen de 20 preguntas, sino el banco de preguntas de donde se seleccionaron al azar esas 20 preguntas, vamos a suponer que, el banco de preguntas está compuesto por 400 preguntas, entonces ese sería el verdadero instrumento, y tendría que gozar de todas las propiedades métricas que estamos analizando.
La estabilidad intraoperador o repetibilidad es una propiedad extrínseca del instrumento, porque no depende del instrumento propiamente dicho, sino de la sistematización del proceso de la medición, si un mismo investigador procede a la medición sin escribir su propio protocolo de medición, no podrá conseguir mediciones estables.
La reproducibilidad es un concepto complementario a la repetibilidad, es decir que si un instrumento no es repetible, perdemos el tiempo en evaluar su reproducibilidad, el concepto de reproducibilidad se evalúa únicamente en aquellos instrumentos donde se ha demostrado su estabilidad intraoperador o repetibilidad.
Un instrumento que arroja valores distintos de medición, solo porque es administrado por un operador distinto carece de estabilidad, las mediciones mostrarán una variabilidad que no corresponde a las variaciones aleatorias de las unidades de estudio. A este error de medición se le conoce como sesgo de medición, lo cual perjudica la exactitud de las mediciones.
La estabilidad entre operadores o reproducibilidad consecuentemente también es una propiedad extrínseca del instrumento, porque no depende del instrumento propiamente dicho, sino del entrenamiento del operador, si un operador no ha leído el manual, no se ha entrenado, no ha practicado, no podrá reproducir los resultados de medición de otro investigador.
4. La validez de criterio
Se le conoce también como validez empírica y es el grado de correlación o concordancia de los resultados del instrumento que estamos evaluando con un referente externo denominado Gold Standard, prueba patrón o diagnóstico definitivo; siempre que sea posible verificar los resultados hallados con un referente externo.
- La validez concurrente fija el criterio en el presente, las dos pruebas o las dos evaluaciones se realizan en simultáneo y si estas coinciden hablamos de validez concurrente, concomitante o inspectiva, también es posible aplicar una evaluación después de la otra de manera indistinta, siempre que no haya transcurrido tiempo suficiente para modificar los resultados.
No siempre parece claro la forma de corroborar el resultado que hemos encontrado con otro instrumento de medición. Por ejemplo, si una persona recibe el diagnóstico de depresión, ¿Cómo sabemos si realmente lo tiene?, aparentemente no hay forma de corroborarlo, sin embargo hay otros modos de aplicar la validez de criterio.
- La validez predictiva consiste en fijar el criterio en el futuro, pero no por estrategia del investigador, sino por las circunstancias propias del estudio, en el ejemplo, de la evaluación de la depresión en un grupo de pacientes, podemos correlacionar los resultados del instrumento, con la probabilidad de suicidio, en base a un seguimiento de los pacientes por un periodo prudencial.
Entonces se puede corroborar los resultados obtenidos por el instrumento construido por las consecuencias del diagnóstico realizado, con lo cual también hablamos de validez de criterio, pero hacia el futuro, de allí en nombre de validez predictiva, conocida también como validez prospectiva o de pronóstico.
5. El rendimiento del instrumento
Corresponde a la optimización del instrumento; optimizar el instrumento significa reducir el error a la hora de emitir juicios de valor para la toma de decisiones, esto quiere decir que el instrumento no solamente tiene que tener una validez de contenido y poseer propiedades métricas, sino que además debe ser óptimo.
Porque luego de la aplicación de un instrumento, tomamos decisiones. Por ejemplo, si los alumnos están aprobados deberán pasar a la siguiente asignatura; pero si están desaprobados deberán repetir la asignatura. Los pacientes que están enfermos deberán recibir tratamiento y los que no están enfermos, no recibirán tratamiento.
La optimización se encarga de que la decisión que tomemos a partir de este resultado tenga la menor cantidad de error posible, nos estamos refiriendo a los errores de tipo 1 y tipo 2, para la toma de decisiones, esto lo podemos lograr mediante la construcción de una gráfica denominada curva de rendimiento diagnóstico (Curva ROC).
Si los valores finales de medición de un instrumento oscilan entre 10 y 50 puntos, no necesariamente el punto de corte es 30, podría ser 20, podría ser 19, 23 o 41, el mejor punto de corte, es aquel que nos entrega los mejores niveles de sensibilidad y especificidad, para lo cual se requiere un referente externo, con lo que se confirma que esta propiedad también es extrínseca.
Finalmente, la validación de instrumentos es un diseño de investigación, por lo que no hay forma de validar dos instrumentos de la misma manera, de allí que es importante conocer los principios mediante los cuales se construye un instrumento, y luego se evalúa sus propiedades métricas, las mismas que pueden alterarse, por lo que se puede requerir de una calibración.