Tamaño de la muestra

Por José Supo

2023 / 04 / 16

El muestreo es un procedimiento mediante el cual, extraemos una parte de la población, con la finalidad de estudiarla y obtener conclusiones para extrapolarlas hacia la población de donde fue extraída la muestra. A este segundo procedimiento se le conoce como inferencia y será efectivo únicamente si hemos seleccionado una muestra representativa.

Es importante señalar que, el interés del investigador está en población y nunca en la muestra. Por ejemplo, para conocer el valor de la hemoglobina de una persona obtenemos 5cm³ de sangre, luego de analizarlos, descartamos la muestra, porque el interés no está en la muestra, sino en la población.

Estudiar a una población a través de solamente una parte de ella, conlleva asumir un error derivado de la variabilidad natural que presentan las muestras, por ello, de calcular un parámetro a través de una muestra y otra, tendrán valores distintos, pero muy cercanos.

Por tanto, lo ideal siempre es estudiar a toda la población, salvo que esto no sea posible. Existen al menos tres situaciones en las que recurrimos al muestreo: cuando la población es inalcanzable en tamaño, cuando la población es desconocida o no tiene marco muestral y cuando la población es inaccesible para la examinación de todas sus unidades de estudio.

Cuando la población es inalcanzable por su magnitud. En un estudio de prevalencia se plantea conocer un parámetro de la población; por ejemplo, conocer la prevalencia de diabetes en la población de Arequipa, tendríamos que medir la glucosa a más de un millón de habitantes y de costar solamente un dólar cada evaluación, necesitaríamos más de un millón de dólares.

Pero incluso si dispusiéramos de los recursos necesarios para poder ejecutar esta titánica tarea, no es racional estudiar a toda la población si podemos calcular este parámetro a partir de una muestra. Aun así, habrá que asumir un error de estimación correspondiente a la variabilidad natural del muestreo, esto se expresará en los intervalos de confianza.

Una población inalcanzable en tamaño, está relacionada con el recurso tiempo, puede que al culminar el estudio, las conclusiones ya no sean útiles para el investigador. Por ejemplo, si realizamos un estudio de preferencias electorales y estudiamos a toda la población, incluso contando con los recursos necesarios esto tomaría muchos días para conocer el resultado final.

Para cuando tengamos el resultado final, este ya no será útil porque la opinión del público cambia día a día; en este caso, es necesario que realicemos el estudio a través de una muestra. Para poder obtener una muestra representativa de la población, debemos conocer con claridad algunos conceptos como: población y muestra.

Si bien utilizar una muestra de lo que ocurre en la población de estudio acarrea asumir un error aleatorio, la magnitud de este error es cuantificable y la tarea del investigador radica en ello. De hecho el tamaño de la muestra dependerá del grado de precisión que el investigador desea obtener y ello en función a la utilidad que le dará a este dato.

Cuando la población es desconocida en tamaño. Se dice que no existe marco muestral cuando no existe un listado de las unidades de estudio, de manera que no es posible conocer con precisión la cantidad exacta de elementos que conforman la población, lo que no permite estudiar a todas las unidades de estudio.

A partir de lo enunciado anteriormente solo nos queda la opción de realizar un estudio con un fragmento de la población, esta fracción es una muestra y a partir de ella tendremos que sacar conclusiones, estos resultados suelen ser muy cercanos a los resultados que se obtienen a partir de una población de tamaño conocido.

Por ejemplo: los latinos inmigrantes que se encuentran en los Estados Unidos son una población de tamaño desconocido, porque no existe un listado, registro o base de datos para poder acceder a la información de cada uno de ellos, no es posible determinar su magnitud, en esta condición se tendrá que recurrir a una muestra.

Un segundo ejemplo: es el conjunto de mujeres trabajadoras sexuales, debido a que, no existe un registro, un listado, una nómina donde podamos conocer exactamente cuántas y quienes son las mujeres que componen este grupo; es decir, carecemos del marco muestral. De querer realizar un estudio sobre esta población, no podremos estudiarlas a todas.

Algunos investigadores consideran en este caso que la población es desconocida, pero no es desconocido el concepto que define a las unidades de estudio que conforman la población, sino su tamaño; de tal modo que, para efectos del cálculo del tamaño de la muestra, a esta población se le considera como infinita.

Cuando la población es inaccesible para su completa examinación.

Por ejemplo, para conocer el valor de la hemoglobina de una persona se necesitan 5cc de sangre (muestra); por cuanto es imposible acceder a sus 5 litros de sangre, además de incompatible con la vida e innecesario, para conocer un parámetro que se puede evidenciar a partir de una muestra.

Aunque dispusiéramos de los métodos necesarios para extraer los 5 litros de sangre de una persona, sin poner en riesgo su vida, la muestra que se obtiene luego del proceso de evaluación de la hemoglobina queda inutilizable y, por tanto, se debe descartar. Este ejemplo muestra claramente que no nos interesa conocer realmente a la muestra, sino a la población.

En otro caso, si queremos conocer el tiempo de vida media de una bombilla eléctrica que es parte de un lote de 10,000 unidades, la pregunta será ¿Cuánto dura en promedio las bombillas que corresponden a este lote? y para conocer este valor bastará con que tomemos una muestra, la pongamos a funcionar y cronometremos su duración.

Con esto obtendremos el tiempo de vida media, si bien nuestro interés es conocer el tiempo de vida media de la población, si ponemos a funcionar a las 10,000 bombillas a fin de conocer el tiempo de vida media, nos quedamos sin el lote de bombillas que debíamos comercializar, en este caso, la población se agota si la estudiamos a toda en su conjunto.

Este es el caso del muestreo de aceptación, donde se examina una parte de la población, en función a los resultados obtenidos en las últimas evaluaciones, dado que es incompatible la examinación de todas las unidades de estudio, debido a que, al examinarlas, las unidades de estudio quedan deterioradas e inservibles para el evaluador.

Tamaño de la muestra según el nivel investigativo.

Cada nivel investigativo tiene una estrategia de desarrollo distinta, ello incluye el tamaño de la muestra, en cada nivel existen estrategias diversas para conocer el tamaño de la muestra y así el alcance de sus conclusiones, como desarrollaremos a continuación.

1. Tamaño de la muestra en el nivel exploratorio.

Los estudios en este nivel investigativo no son inferenciales, es decir que los resultados que se obtengan a partir de la muestra estudiada, no pueden extrapolarse a ninguna población, precisamente porque la muestra no es representativa de ninguna población.

Por ejemplo: cuando Neil Armstrong fue a la luna, trajo de regreso una muestra de suelo lunar, la misma que fue analizada y que en ningún caso se pretendió generalizar, de que toda la luna estuviese conformada del mismo material que contiene la muestra que extrajo Neil Armstrong, no se puede generalizar, no se puede inferenciar.

El ejemplo anterior corresponde a una muestra accidental, conocida también como muestra errática, sin normas o por conveniencia, en términos simples “se estudia lo que hay” ello no quita valor al estudio realizado. Aunque se trate de una muestra no probabilística, el estudio sigue siendo válido, se trata de un punto de partida.

Como lo dijo Neil Armstrong se trata de “un pequeño paso para el hombre, pero un gran salto para la humanidad” un pequeño paso, porque se trata de una muestra no representativa; pero un gran salto, porque nadie antes estuvo en la Luna, y no existía nada semejante a lo que él trajo de regreso a la tierra, es algo completamente nuevo.

2. Tamaño de la muestra en el nivel descriptivo.

Para conocer el valor de un parámetro de la población se requiere de una muestra representativa, la misma que exige dos condiciones, la primera, el cálculo del tamaño de la muestra con un algoritmo; y la segunda, una técnica de muestro, que evite los sesgos de selección.

El tamaño de la muestra representativa, se calcula con una fórmula, en razón del tamaño de la población, del nivel de confianza, y de la precisión que se requiere en las conclusiones. El tamaño de la población se conoce cuando existe marco muestral, el nivel de confianza habitualmente es del 95% y el grado de precisión convencionalmente es 5%.

Una vez conocido el tamaño de la muestra, se da paso a la selección de las unidades muestrales, dicha selección debe ser aleatoria, para asegurar la representatividad de la muestra, cada una de las unidades de estudio, debe tener la misma posibilidad de conformar la muestra, a ello se le denomina muestreo aleatorio simple, un tipo de muestreo probabilístico.

Aunque todo lo anterior se haga con pulcritud, cada vez que se calcule la media de la población con una muestra distinta, de la misma población, se obtiene un resultado distinto, con ello se puede hacer una distribución de muestreo de las medias donde todas las muestras posibles de tamaño “n” obtenidas de una población tendrá una distribución normal aproximada.

3. Tamaño de la muestra en el nivel relacional.

La novedad del nivel investigativo relacional es que, a partir de este nivel, se trata de un estudio analítico. Por tanto, para efectos del cálculo del tamaño de la muestra, no solamente se considera el error tipo 1, sino también el error tipo 2, por ello el tamaño de la muestra calculada no puede variar.

Recordemos que, en el estudio descriptivo, para la estimación de la prevalencia, luego de calcular el tamaño de la muestra, este número calculado se considera el valor mínimo del tamaño muestral para asegurar el nivel de confianza previamente propuesto, se puede aumentar el tamaño de la muestra y conseguir mayor nivel de confianza.

En el estudio relacional, se calcula el tamaño de la muestra y no se puede estudiar un número menor porque se afecta el nivel de confianza, relacionado con el error tipo 1, como ocurre en los estudios descriptivos. En los estudios analíticos tampoco se puede aumentar el tamaño de la muestra porque se afecta la potencia de prueba, relacionada con el error tipo 2.

Para el cálculo del tamaño de la muestra se utiliza la variable aleatoria, si se trata de un estudio comparativo, solo existe una variable aleatoria, mientras que, si se trata de un estudio de asociación o correlación donde las dos variables son aleatorias, se utiliza aquella que tenga mayor grado de variabilidad en términos de desviación estándar o p_porq.

4. Tamaño de la muestra en el nivel explicativo.

En este nivel se encuentran los estudios experimentales, donde se realiza una intervención sobre la población para demostrar una relación causal, de allí que se deban intervenir el menor número de unidades experimentales, especialmente cuando se trata de trabajar con seres vivos.

En ese sentido, si de reducir el tamaño de la muestra se trata, a fin de viabilizar el estudio, se estaría afectando el nivel de confianza, de manera que no siempre los resultados de una muestra según criterio serían concluyentes, sino solamente aquellos casos donde el investigador logra demostrar su hipótesis.

Para explicar mejor el concepto anterior veamos un ejemplo, vamos a comparar el nivel de juego en el fútbol de la selección de Perú y la selección de Brasil, todos sabemos que deben jugar dos tiempos de 45 minutos. Pero qué tal si a los 10 minutos de juego Brasil viene venciendo 3 a 0 a la selección de Perú, se puede deducir que no hace falta que jueguen 90 minutos.

Pero que tal, si proponemos el mismo juego a la selección de Argentina y a la de Brasil y a los 10 minutos de juego, están cero a cero, con ese tamaño de muestra no podemos concluir nada, porque no sabemos lo que sucederá en los próximos minutos de juego, no podemos concluir en que uno de ellos es mejor que el otro, pero tampoco en que van a terminar iguales.

5. Tamaño de la muestra en el nivel predictivo.

Clásicamente desarrollamos un estudio a partir de los datos recogidos para el propio estudio, sin embargo en la investigación predictiva, es ideal trabajar con bases de datos creadas de forma automática a medida que se va realizando una intervención o una prueba piloto.

Estas bases de datos pueden ser tan amplias como sean necesarias, literalmente pueden contener millones de registros, como es el caso de las bases de datos de los bancos, de las tiendas por departamento, de los supermercados, o de las historias clínicas electrónicas, en estos casos claro está, de que hay que trabajar con toda la base de datos.

También es posible que, una base de datos tenga decenas de variables para analizar, siendo así, un análisis de datos con millones de registros, incluso utilizando un sistema informático, puede entregarnos resultados luego de un periodo de tiempo inesperado, como uno o varios días, en ese caso se requiere del uso de una muestra.

Una de las formas de muestreo en las bases de datos se conoce como algoritmos genéticos, una forma de selección propia de la minería de datos, para reflejar los resultados como si se hubiese estudiado al cien por ciento de los casos, de manera que estos resultados puedan ser extrapolados hacia la población de donde fue extraída.

6. Tamaño de la muestra en el nivel aplicativo.

Al igual de lo que ocurre en el nivel investigativo anterior, aquí se trabaja con toda la base de datos, en el entendido de que estos datos, provienen de una intervención que se realiza de forma rutinaria, para conseguir un beneficio sobre la población, de manera que si es posible examinar a todas las unidades de estudio.

Sin embargo, lo que se puede deducir de la afirmación anterior, es que se trata de un conjunto grande, se trata de toda la población, donde el mayor esfuerzo realizado es la intervención propiamente dicha, evaluar a cada una de las unidades de estudio implicaría un esfuerzo similar sino mayor a la propia intervención del estudio aplicativo.

Es por esto que, aparece el muestreo de aceptación, el mismo que consiste en examinar una parte de los resultados, para que a partir de ella, se concluya que toda la población es aceptable o no, este tamaño de la muestra si bien se debe calcular, considerando el tamaño de la población, también considera el resultado de la examinación anterior.

Si por ejemplo, compramos naranjas por camiones, debemos examinar su idoneidad, abriendo una caja por cada contenedor, si los resultados no son aceptables, la próxima vez examinaremos más de una caja, por tanto, la aceptación está en el sentido del número de cajas satisfactorias, respecto del número de cajas examinadas.