Muestra aleatoria

Por José Supo

2023 / 04 / 16

Existen dos formas de seleccionar una muestra a partir de una población: el muestreo probabilístico o aleatorio y el muestreo no probabilístico o no aleatorio. El primero incorpora el azar como recurso en el proceso de selección y éste es un requisito para contar con una muestra representativa que permita conocer los parámetros de una población a partir de una muestra.

Una muestra representativa de la población, es aquella que permite concluir a partir de la muestra analizada, sobre la población de donde fue obtenida la muestra, para ello existen dos requisitos, el primero, el cálculo del tamaño de la muestra, y el segundo, una técnica de selección aleatoria.

El muestreo probabilístico o aleatorio, parte de la premisa, de que todas las unidades que conforman la población deben tener la misma probabilidad de formar parte de la muestra, pero este concepto en la práctica es utópico, por lo que existen variantes dentro de esta propuesta.

Existen cuatro técnicas de muestreo aleatorio o probabilístico, y existe un orden jerárquico en cuanto a su capacidad de representar mejor a la población, en orden descendente de jerarquía son: muestreo aleatorio simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo por conglomerados.

1. Muestreo aleatorio simple

Desde el punto de vista matemático, es la forma más sencilla de seleccionar una muestra representativa, de ahí viene el nombre de simple; pero desde el punto de vista práctico, de la recolección de los datos y de la aproximación a las unidades de estudio es más complejo mientras más grande sea la población.

Cuando trabajamos con una población de menor magnitud y además contamos con un listado de todos ellos, digamos mil estudiantes de una academia de preparación preuniversitaria, es la técnica de selección idónea, porque disponemos de un marco muestral, porque podemos elegir directamente desde la población a las unidades de estudio.

Es simple, porque si tenemos una población de tamaño N (mayúscula) y queremos construir una muestra de tamaño n (minúscula); entonces, nada más hace falta dividir n entre N para encontrar la probabilidad de que cada elemento conforme la muestra. Esta probabilidad es conocida y es la misma para cada uno de los elementos, se le conoce como equiprobabilístico.

Vamos a suponer que queremos conocer la prevalencia de ansiedad en los estudiantes de una academia de preparación preuniversitaria, como es lógico, todos han sido matriculados, tienen un registro, se les ha asignado un número de identificación, existe marco muestral; cada uno de los elementos que conforman la población están plenamente identificados.

Si luego de realizar el cálculo del tamaño de la muestra, encontramos que solamente necesitamos a cien estudiantes; entonces, lo que hacemos es dividir cien entre mil, porque cien es el tamaño de la muestra, n, y mil es el tamaño de la población, N. Cien entre mil nos da uno sobre diez o 0.1 o un décimo, esa es la probabilidad de que cada alumno conforme la muestra.

La manera más simple de completar esta tarea es asignarle un número a cada estudiante, este número se escribe en un bolo y estos bolos se introducen en un ánfora; para luego rodar el ánfora, y se procede a seleccionar a los estudiantes que conformarán la muestra. Este procedimiento también se puede realizar con un software que aleatorice a todos los registros.

El requisito para aplicar el muestreo aleatorio simple, es tener plenamente identificadas a las unidades de estudio, hay que tener un listado, un marco muestral, N (mayúscula), que tendrá que ser utilizado para calcular la probabilidad de conformar la muestra; pero lo real es que no siempre podemos contar con este marco muestral.

Cuando no tenemos el marco muestral o el listado de todas las unidades de estudio, no podremos aplicar el muestreo aleatorio simple, a pesar de poder calcular la probabilidad de que algunos de los elementos de la población formen parte de la muestra, no es posible realizar una selección cien por ciento aleatoria.

De manera que para realizar el muestreo aleatorio simple, no basta con conocer el tamaño de la población, sino también hay que tener plenamente identificadas a cada una de las unidades de estudio, mediante un código, nombre o identificador, dentro de una lista, padrón, que se denomina como marco muestral.

De no contar con el marco muestral, existen otras opciones de seleccionar la muestra, pero tendremos que pagar un precio: incrementar el sesgo entre el valor medido en la muestra y el valor real que habríamos encontrado de estudiar a toda la población, este sesgo que existe incluso en el muestreo aleatorio simple, se hace mayor con las otras alternativas de selección.

2. Muestreo aleatorio sistemático

Este tipo de muestreo es una opción que aparece cuando no se cuenta con el marco muestral, y se utiliza con la finalidad de factibilizar el estudio, cuando no es posible realizar un muestreo aleatorio simple, este muestreo intenta replicar la situación en que cada unidad de estudio tiene la misma probabilidad de conformar la muestra.

Aquí debe quedar claro que vamos a elegir el muestreo aleatorio sistemático no por comodidad, porque sea más sencillo o más rápido, sino porque no podemos alcanzar el desarrollo del muestreo aleatorio simple, se trata de una segunda opción, que se debe optar luego de un análisis y una justificación.

Veamos un ejemplo: si queremos evaluar la percepción de la calidad de la atención en los pacientes de consulta externa en el Hospital Regional, en este caso no contamos con un marco muestral, no podremos utilizar el muestreo aleatorio simple, no existe un N (mayúscula) que corresponda a la población, por lo que para el cálculo del tamaño de la muestra N se considera infinito.

Otra forma es, viendo cuantos pacientes han sido atendido el año pasado y suponiendo que han sido atendidos diez mil pacientes, entonces, lo lógico es que este año también sean atendidos una cantidad similar. Por lo tanto, N sería igual a diez mil, pero no es el tamaño de la población, no es el listado de todas las unidades de estudio, solo es una construcción teórica de N.

Esta concepción del tamaño de la población se denomina según criterio, y puede haber variantes como: todos los pacientes que se atienden desde el primero de enero hasta el treinta y uno de marzo. ¿Será posible que, las patologías que presentan los pacientes de enero a marzo sean distintas a las patologías de los pacientes que acuden entre julio y setiembre?

Si esto es así, N tiene que ser construido en función a todo el año; pero si las patologías que se presentan de enero a marzo son las mismas que se presentan de julio a setiembre, entonces, tres meses serán suficientes para definir el N o un tamaño previsto de la población. El investigador, de acuerdo su propio criterio, define cuál es el espacio temporal.

Vamos a suponer que el cálculo del tamaño de la muestra nos entrega únicamente cien pacientes, ahora tenemos que hacer una división: N, diez mil, entre “n” cien. Diez mil entre cien es igual a cien, a esto se le denomina intervalo de salto y se le representa por la letra k, esto quiere decir que tenemos que entrevistar a uno de cada cien pacientes durante todo el año.

Pero ¿qué sucede si hemos completado nuestra muestra de cien pacientes antes de que acabe el año? Pues ahí termina nuestra recolección de datos. O ¿qué sucede en el sentido inverso? Es decir, ya pasó un año y todavía no tenemos a nuestros cien pacientes; entonces, seguiremos con el mismo procedimiento de muestreo, incluso si nos hemos pasado más de un año.

El problema de este tipo de muestreo, es cuando el intervalo de salto se asocia a la variable de estudio. Imagina que todos los días en un Hospital se entrega citas a 20 pacientes y el intervalo de salto es exactamente igual a 20, si entrevistamos al paciente 1, al 21, al 41 y así sucesivamente, estaríamos entrevistando al primer paciente de cada mañana.

En este ejemplo, puede ser que la percepción de la calidad de la atención para el primer paciente de la mañana no necesariamente sea igual a la percepción de la calidad del servicio percibido por el ultimo paciente de la jornada, por lo tanto, en este caso el intervalo de salto “k” no debería ser igual a 20.

3. Muestreo aleatorio estratificado

Es el procedimiento indicado cuando no es posible aplicar el muestreo aleatorio simple ni el muestreo sistemático, en el cual se pretende representar a cada uno de los estratos identificados en la población, lo más común es que sea proporcional, pero también existen otras dos afijaciones.

La afijación proporcional

Es la afijación más conocida y también más utilizada, consiste en construir una muestra que contenga a cada estrato en la misma magnitud o proporción que se observa en la población, para ello, no es imprescindible conocer el tamaño de la población, sino más bien conocer las proporciones de los estratos.

Es por tanto, una alternativa donde se requiere mayor conocimiento de la distribución de la variable de estudio en la población, en el sentido de que, el resultado de la medición puede ser distinto en cada uno de los estratos estudiados, de manera que se controle el sesgo de interpretación de los resultados.

Por ejemplo, si deseamos realizar un estudio de preferencias electorales en una población, conformada por los estratos socioeconómicos A, B, C y D, y el tamaño de la muestra es 400, no se puede tomar 100 unidades para cada estrato, sino que cada estrato debe tener una magnitud igual a la distribución que tiene en la población.

La afijación de Neyman

Considera a una población con grupos de diferente variabilidad. Veamos el siguiente ejemplo: si deseamos conocer el índice de masa corporal (IMC) en una población conformada por hombres y mujeres, sabemos que el IMC en los hombres es distinto al de las mujeres no solamente en valor promedio, sino también en desviación estándar.

Los hombres tenemos más IMC que las mujeres y también mayor variabilidad expresada en términos de desviación estándar; por lo tanto, de realizar un muestreo aleatorio estratificado mediante la afijación de Neyman tendremos que incluir más hombres que mujeres. Porque los hombres tenemos mayor dispersión respecto de esta medida.

El grupo que tenga más dispersión necesitará más muestra respecto del grupo que tenga menos dispersión, por supuesto, estos cálculos se pueden hacer matemáticamente, y existen algoritmos para dotar de un mayor número de unidades de estudio al estrato que muestre la mayor variabilidad y así estabilizar su amplia variabilidad.

La afijación óptima

Tiene en cuenta los costos que involucra hacer las mediciones a cada uno de los estratos. Para entender mejor vamos a poner el siguiente ejemplo: estamos haciendo un estudio de seguimiento de egresados de una universidad local, tenemos los números telefónicos y les vamos a realizar una entrevista telefónica.

Algunos de los egresados se encuentran en nuestra ciudad y otros, incluso, están fuera del país; por lo tanto, las llamadas locales nos costarán mucho menos que las llamadas internacionales, esto significa que evaluar al estrato que se encuentra fuera del país es más costoso que, evaluar al estrato que se encuentra al interior del país.

Entonces, tendremos que reducir el número de elementos del estrato que nos resulta más costoso en función a la diferencia, del precio que hay que asumir para evaluar a uno y otro estrato. La afijación óptima se desarrolló con la finalidad de utilizar nuestros recursos de la manera más óptima, esto por supuesto también se desarrolla con un algoritmo matemático.

4. Muestreo por conglomerados

Se denomina también muestreo por clústeres, muestreo por grupos o muestreo de agrupamiento, es la cuarta técnica de muestreo probabilístico y de todas estas técnicas, es la que más sesgo tiene, esta opción se utiliza cuando, se descubre que, en la población existen clústeres.

Consiste en la identificación de grupos denominados conglomerados o clústeres, donde cada grupo presenta toda la variabilidad que se observa en la población, para ello se requiere conocimiento previo de la distribución de la variable en la población, a fin de considerar que cada grupo o conglomerado es una suerte de “minipoblación”

Por ejemplo, si deseamos evaluar la satisfacción laboral en los trabajadores de salud, que pertenecen al Ministerio de Salud en el primer nivel de atención, es decir, centros y puestos de salud; en la región Arequipa, implicaría trasladarse a cada centro y puesto de salud, lo cual representa mucha inversión económica y logística.

Una alternativa es realizar un muestreo por conglomerados; esto significa no aleatorizar a las unidades de estudio, sino a los conglomerados que son los centros y puestos de salud, porque en cada grupo o conglomerado, encontramos a los diferentes profesionales de la salud, casi en la misma proporción que en la población.

Una vez que hayamos seleccionado a los centros y puestos de salud a evaluar, vamos a dirigirnos hacia estos conglomerados para entrevistar a los trabajadores de la salud; esto resulta muy práctico, porque no vamos a tener que trasladarnos a todos los centros y puestos de salud de la región, sino únicamente aquellos que conforman la muestra.

En cada grupo o conglomerado encontramos a las unidades de estudio representando a toda la variabilidad observada en la población. En un centro o puesto de salud encontramos al médico, a la enfermera, a la obstetriz, al odontólogo, al nutricionista, al psicólogo, etc. es decir encontramos, a todo el equipo de salud.

Cada conglomerado presenta la misma variabilidad o, por lo menos, en similares proporciones a lo que se encuentra en toda la población, es decir, en todo el Ministerio de Salud. Por esta razón, a cada uno de estos grupos los vamos a considerar como “minipoblaciones” o desde el punto de vista técnico como “conglomerados”.

Continuando con el ejemplo anterior, de querer conocer la satisfacción laboral de los profesionales de la salud, que laboran en el Ministerio de Salud, y se cuentan con cien conglomerados, pero solo vamos a estudiar diez, entonces estos conglomerados se aleatorizan y se estudian únicamente los que sean seleccionados.

Continuando con el razonamiento anterior, significa que hay una primera etapa de selección de conglomerados, y estos 10 conglomerados elegidos del total de 100 corresponde al criterio del investigador, una segunda etapa consiste en que, de cada conglomerado seleccionado, se decida si estudian a todos o solamente a una facción de las unidades de estudio.

Debido a que se cuenta con un tamaño de muestra previo, se estudian tantos conglomerados hasta completar el tamaño de la muestra. Si se decide estudiar más conglomerados, se deberá aleatorizar al interior de los mismos a las unidades de estudio, para conformar la muestra del tamaño previamente calculado.