La prueba de hipótesis

Una hipótesis es una proposición susceptible de asignarle los valores de verdad: “verdadero” que corresponde a la hipótesis alterna y “falso” que corresponde a la hipótesis nula. La hipótesis del investigador es la hipótesis alterna, es lo que el investigador desea demostrar y se expresa como una afirmación anticipada.

Si el investigador afirma de manera anticipada una proposición y se equivoca, comete un error, que por ejemplo corresponde a una relación entre las variables que en realidad no existe, esto equivaldría en el campo jurídico a declarar culpable a una persona que en realidad es inocente.

De manera que la tarea del investigador es calcular la probabilidad de cometer este error, el cual, por supuesto, no se puede conocer, como no se puede conocer la proporción de personas inocentes que se encuentran en prisión pagando por crímenes que no cometieron.

Sin embargo, este valor puede ser calculado probabilísticamente, de manera que podamos tomar decisiones en función a la probabilidad, de encarcelar o liberar a un acusado, de hospitalizar o dar de alta a un paciente, debemos establecer la magnitud del error que estamos dispuestos a asumir de tomar la decisión de quedarnos con la hipótesis del investigador.

EL RITUAL DE LA SIGNIFICANCIA ESTADÍSTICA

Se dice que es un ritual, porque siempre se realiza de la misma forma, fue planteado originalmente por Fisher (1925) y está compuesto por cinco pasos: el Planteamiento de hipótesis, el establecimiento del nivel de significancia, la elección de la prueba estadística, el cálculo del p-valor y la toma de decisiones.

Estos cinco pasos son la actualización del ritual de Fisher para la era informática. En la versión Fisheriana, en el primer paso se trabajaba sobre la hipótesis nula y se pretende rechazarla para quedarse con la “hipótesis del investigador”; en el cuarto paso se comparaba el valor del estadístico calculado con el valor que puede ocurrir por el azar.

En la era informática, ya no contrastamos el valor del estadístico calculado con los resultados de una tabla, porque el software estadístico es capaz de calcular el p-valor con todas sus cifras decimales, recordando que el p-valor es la probabilidad de que la “hipótesis del investigador” sea falsa, su cálculo permite tomar una decisión en función a un límite de tolerancia.

El ritual de la significancia estadística no es sinónimo de prueba de hipótesis, el ritual de la significancia estadística es una herramienta para la prueba de hipótesis en los estudios cuantitativos, por otro lado es posible demostrar hipótesis sin la necesidad de utilizar este ritual y ello se puede comprobar en los estudios exploratorios.

En los estudios exploratorios, es posible poner a prueba verdaderas hipótesis, como por ejemplo el diagnóstico médico, que parte de una sospecha y concluye con los valores de verdad de: “sano o enfermo”, la herramienta utilizada es la heurística, o el razonamiento heurístico que en medicina tiene valor legal y científico.

1. PLANTEAMIENTO DE HIPÓTESIS

Consiste en escribir una hipótesis nula y una hipótesis alterna, por estrategia se aconseja escribir primero la hipótesis alterna, porque es la hipótesis del investigador, y después oponiéndose a ella escribir la hipótesis nula; este sistema es un convencionalismo, porque en realidad solo nos interesa la hipótesis del investigador o hipótesis alterna.

La hipótesis alterna, se obtiene afirmando al enunciado del estudio, por ejemplo, si el enunciado del estudio dice: El hábito de fumar es un factor de riesgo para el cáncer de pulmón. La hipótesis alterna será: El hábito de fumar “SI” es un factor de riesgo para el cáncer de pulmón; y la hipótesis nula: El hábito de fumar “NO” es un factor de riesgo para el cáncer de pulmón.

En el ejemplo anterior, la palabra “SI” se podría retirar y quedar implícita en la oración, por lo que, en este caso, el enunciado del estudio queda exactamente igual a la hipótesis alterna o hipótesis del investigador, con lo cual queda demostrado que, lo que realmente interesa, no es la hipótesis nula, sino la hipótesis alterna, que es la hipótesis del investigador.

Otro ejemplo: El extracto de la raíz de una planta nativa de la selva peruana cura la úlcera péptica; su versión afirmativa dice que: “SI” cura, mientras que su versión negativa dice que: “NO” cura. Como es lógico el investigador está buscando un hallazgo, por tanto la hipótesis del investigador es la versión afirmativa del enunciado del estudio.

La hipótesis del investigador, es la que afirma encontrar diferencias en caso de una comparación, es la que afirma demostrar asociación o correlación, es la que afirma encontrar la cura para la enfermedad, afirma evidenciar una condición, la presencia del fenómeno, en conclusión, la tarea de la demostración recae en quien hace la afirmación.

2. NIVEL DE SIGNIFICANCIA

No es un buen nombre descriptivo, un mejor nombre sería, el nivel de tolerancia, porque establece un límite sobre el cual no puede excederse, para poder realizar una afirmación. Por ejemplo, si tienes 5 minutos de tolerancia para el ingreso al trabajo, mientras llegues antes de ese límite, puedes decir que has llegado temprano o a tiempo.

Si la hora de ingreso al trabajo es las 8:00 am y el límite de tolerancia es de 15 minutos, mientras llegues antes de las 8:15 am nadie puede decir que has llegado tarde, y por lo tanto no se hace plausible una sanción de tardanza, porque estas dentro del “límite de tolerancia”, este valor es convencional, acordado o convenido por las partes.

Así el nivel de significancia, mejor definido como límite de tolerancia, no se calcula, no hay una fórmula, no existe una ecuación, no proviene de un cálculo matemático, sino todo lo contrario, ya que se establece de manera teórica, a criterio del investigador, o de los investigadores que comparten la misma línea de investigación.

Se puede establecer un límite de tolerancia absolutamente para todo, para las complicaciones del parto, para los casos de dengue en el verano, para los accidentes de tránsito en un año, para las víctimas de neumonía en el invierno, para aceptar la proposición del investigador en caso de que su afirmación sea falsa, hay que establecer un nivel de significancia.

Como quiera que la probabilidad de equivocarse por parte de un investigador, luego de que hiciera una afirmación se mide en términos porcentuales, el nivel de significancia también se establece en porcentaje y se plantea preliminar y convencionalmente como el 5%, cinco por ciento de límite de tolerancia para el error o nivel de significancia.

3. PRUEBA ESTADÍSTICA

Continuando con el razonamiento anterior, habiendo planteado una afirmación, habiendo también planteado el límite de tolerancia para el error, equivalente a la probabilidad de equivocarse al haber hecho la afirmación,  el siguiente paso consiste en calcular la probabilidad de equivocarse, a esto se le conoce como el p-valor.

  • El p-valor

Es un número que varía de cero a uno, cero (0) significa que no puede ocurrir, uno (1) significa que ocurre siempre, un valor intermedio significa la probabilidad de ocurrencia, y que en investigación científica, corresponde a la probabilidad de que el investigador se haya equivocado, al haber hecho una afirmación.

Para poder calcular el p-valor se requiere de un procedimiento matemático, de un cálculo de probabilidad, este cálculo depende de una ecuación, a lo que se le denomina la prueba estadística, y su elección depende de varios factores o criterios, conocidos como criterios para la selección de un procedimiento estadístico.

El verdadero Know How del análisis de datos consiste en saber elegir la prueba estadística, estos son los seis criterios para elegir un procedimiento estadístico: el nivel investigativo, el objetivo estadístico, el tipo de variable, el tipo de estudio, el diseño de la investigación y el comportamiento de los datos. Veamos un ejemplo con cada uno de ellos.

  • El nivel investigativo

El nivel descriptivo es univariado, aquí encontramos a la media y la desviación estándar, a las frecuencias absolutas y relativas; el nivel relacional es bivariado, contiene al Chi cuadrado y la t de Student; a partir del nivel explicativo se inicia el análisis multivariado, como el análisis de la varianza en bloques, las regresiones logísticas y lineales.

  • El objetivo estadístico

No es lo mismo asociar que comparar; a pesar de que estos dos procedimientos se pueden presentar en una tabla de contingencia de 2 por 2, la prueba estadística es distinta para cada objetivo estadístico. La asociación se desarrolla con “Chi cuadrado de independencia”, la comparación con “Chi cuadrado de homogeneidad”.

  • El tipo de variable

Es el criterio más conocido de todos, si queremos comparar dos grupos, por ejemplo, dos salones de clases y nuestra variable aleatoria es categórica, utilizamos “Chi cuadrado de homogeneidad”, pero si nuestra variable aleatoria es numérica utilizamos “t de Student para muestras independientes”.

  • El tipo de estudio

Los estudios según el número de ocasiones en que se mide la variable de estudio son transversal y longitudinal; para comparar dos grupos en un estudio transversal se utiliza la “t de Student para muestras independientes”, y para comprar dos medidas en un estudio longitudinal se utiliza la “t de Student para muestras relacionadas”.

  • El Diseño del estudio

Es muy conocido por todos que para cuantificar el riesgo en el diseño de casos y controles utilizamos el “Odds Ratio”, mientras que en el diseño de cohortes el “Riesgo Relativo”. Esto es porque el diseño de casos y controles parte de la consecuencia para buscar las causas, mientras que el diseño de cohortes parte de las causas para buscar los efectos.

  • El comportamiento de los datos

Cuando planeamos desarrollar un Chi cuadrado y una de las frecuencias esperadas en la tabla de 2 por 2 es menor a 5, se utiliza la corrección de Yates. Cuando con variables numéricas planeamos realizar la t de Student y nuestra variable aleatoria no tiene distribución normal, tendremos que elegir su equivalente no paramétrico.

4.  CÁLCULO DEL P-VALOR

Este paso no fue planteado originalmente por Fisher (1925), porque en esa época no se disponían de programas informáticos que ayuden a calcular el p-valor, el cual cuantifica el error tipo 1, la probabilidad de equivocarse, cuando el investigador hace una afirmación, ahora esta probabilidad se calcula con cualquier software estadístico.

Hoy en día es fácil calcular el valor de p, con cualquier software estadístico, ya no es necesario utilizar las tablas de probabilidad, sino que simplemente calculamos la probabilidad de que la afirmación sea falsa, de tal modo que cada quien tomará su propia decisión de aceptar o no la proposición, según el “límite de tolerancia” que le tenga al error.

La lectura del p-valor no es más que eso, una lectura. La decisión de quedarnos con alguna de las hipótesis la tomaremos más adelante, pero en este punto solo nos limitamos a enunciar la hipótesis del investigador con un grado de error, este grado de error es precisamente el p-valor, además debemos recordar que el error nunca será del 0% ni tampoco del 100%.

Veamos un ejemplo de lectura del p-valor: con un error del 2,5% el procedimiento anestésico planteado es seguro; esto podemos interpretarlo como que en el 2,5% de los casos el procedimiento anestésico no es seguro; de manera que con esta información el investigador decidirá si dar o no su aprobación para desarrollar una cirugía.

Entonces, dar lectura al p-valor no es tomar una decisión, es solamente informar la magnitud del error en caso de aceptar la hipótesis del investigador, por eso es importante conocer su magnitud, para ponerlo en evidencia y a partir de este valor, tomar una decisión, de aceptar o no algo como verdadero.

5. TOMA DE DECISIÓN

Cualquier decisión que tomamos cada día tiene un margen de error, conocer la magnitud del error es la tarea del investigador para poder tomar decisiones basadas en la probabilidad; si no calculamos la probabilidad de error, estaremos tomando decisiones sobre las cuales no conocemos la probabilidad de fracasar o de equivocarnos.

El p-valor es la magnitud del error, mientras menor sea su valor, mayores serán nuestras probabilidades de éxito, actuar en función a la probabilidad de equivocarnos y tomar decisiones basadas en la probabilidad es una característica de la ciencia; porque siempre estamos tratando de reducir el error en cada uno de nuestros procedimientos.

La toma de decisiones tiene que ver con el nivel de tolerancia o nivel de significancia, si el error estimado es menor al nivel de tolerancia que habíamos establecido preliminarmente, entonces, tomaremos la decisión de aceptación, de aceptar la hipótesis del investigador, dado que existe muy pocas opciones de equivocarse.

Si la magnitud del error para un procedimiento quirúrgico es del 3% y el límite aceptable, llamado nivel de significancia o tolerancia es del 5%, entonces, podemos aceptar al procedimiento quirúrgico, como un procedimiento seguro, porque el error es menor al límite de tolerancia teóricamente establecido.

Si la magnitud del error para un procedimiento anestésico es del 7% y el límite aceptable llamado nivel de significancia es del 5%, entonces, no aceptaremos este procedimiento anestésico, porque el error es mayor al límite de tolerancia; en consecuencia, nuestra decisión final será emitir el enunciado: El procedimiento anestésico no es seguro.

LA INTERPRETACIÓN NO ES PARTE DE LA PRUEBA DE HIPÓTESIS

El ritual de la significancia estadística, no incluye la interpretación, porque no es posible interpretar los datos si no se conoce el propósito del estudio; el ritual de la significancia estadística es un procedimiento netamente matemático, es solo el puente entre la necesidad de calcular el error y tomar una decisión.

Luego de tomar una decisión de quedarnos con alguna de las hipótesis, ya sea la hipótesis nula o la hipótesis alterna, recién surge la necesidad de interpretar estos resultados; y la interpretación es un procedimiento hermenéutico, que traduce los resultados en términos del propósito del estudio, por ello la interpretación es una traducción de resultados.

Por ejemplo: en un estudio de factores de riesgo, desarrollado con el diseño de los casos y controles, el objetivo estadístico es comparar, y la hipótesis del investigador es que el grupo de los casos es diferente al grupo de los controles; si el p-valor es menor al nivel de significancia, los resultados indican que ambos grupos son distintos.

Sin embargo la interpretación amplía su contexto hacia el propósito del estudio, interpretando que la característica que se encuentra con mayor frecuencia en el grupo de los casos, respecto de los controles, es un factor de riesgo; este razonamiento no se puede realizar únicamente a partir del ritual de la significancia estadística, sino que interpreta al propósito del estudio.

Por tanto para poder realizar una interpretación adecuada de los resultados del ritual de la significancia estadística, no basta con conocer los resultados matemáticos de la mismo, sino que hay que tener presente el propósito del estudio, que expresa la intención del investigador, que lo llevó a desarrollar un estudio en particular.

¿Quieres saber más?

¿Aún no tiene tema de tesis?

Haz click en el botón de abajo y te daré un tema de tesis en menos de un minuto.

Obtén tu tema de tesis