Veremos en esta entrada del blog un ejemplo de cálculo del tamaño muestral óptimo en una investigación de marketing.  Supongamos, para este ejemplo, que estamos interesados en analizar las opiniones de los ciudadanos de Zaragoza capital. Evidentemente, el tamaño de la población en estudio (UNIVERSO) resulta ser superior a 100.000 sujetos, por lo que podemos considerar que es una población infinita, en términos estadísticos.

Veamos primero un poco de teoría estadística para comprender mejor el ejemplo

Llamamos error de muestreo al error debido al hecho de no tratar a todos los elementos de la población en estudio. Es admitido por el investigador y tratamos de acotarlo, para que no supere determinado nivel. Los valores habituales son el 5%, 3%, 2,5% o 2%.

En poblaciones muy grandes, el error de muestreo es independiente del tamaño poblacional.

Llamamos nivel de confianza a la probabilidad de que nuestro intervalo de estimación contenga el verdadero valor de la variable y que denotaremos por (1-α).

El problema es que el sesgo de las estimaciones aumenta al disminuir el tamaño muestral. Es decir, si tomamos una muestra demasiado pequeña, nuestro nivel de confianza es menor. O dicho de otra forma, el nivel de confianza de nuestra estimación disminuye ya que la dispersión de los datos en muestras pequeñas es mayor que en muestras grandes. Si nuestro intervalo es muy ancho, es más fiable, pero menos útil. Es preferible que el intervalo tenga un alto nivel de confianza y que sea exacto (estrecho) a la vez.

Necesitamos conocer la dispersión de los datos o, dicho de otro modo, la varianza de la variable poblacional. Pero solo podemos estimarla, precisamente con la muestra que tenemos que diseñar. Podemos estimar este dato mediante un pre-test (del que obtendríamos la cuasi-varianza muestral), observando valores de estas variables tomados en ocasiones anteriores (fuentes secundarias) o podemos ponernos en el peor de los casos y considerar que la varianza es la máxima posible para la variable en estudio.

Tamaño muestral en el muestreo aleatorio simple

En el caso de efectuar el muestreo aleatorio simple o de población infinita (donde el supuesto de independencia puede mantenerse al ser las covarianzas prácticamente nulas), el error máximo permitido se define como:

Fórmula para el cálculo del error muestral

Fórmula para el cálculo del error muestral

 

Donde k es una constante que nos indica el nivel de confianza deseado en el estudio, n es el tamaño muestral y σ la desviación típica. Es decir k= N/n= tamaño poblacional / tamaño muestral. Despejamos ahora de esta decisión la n óptima (el tamaño muestral óptimo) cuando el muestreo se efectúa con reposición:

Fórmula para el cálculo del tamaño muestral en función al error muestral admitido.

Fórmula para el cálculo del tamaño de la muestra en función al error muestral admitido.

 

En este caso, vamos a considerar un e=0.025 y un nivel de confianza del 95% (por lo tanto un α=0.05).

Para medir la dispersión, utilizaremos el resultado de la variable Bernoulli. Este es el caso de las preguntas con respuestas dicotómicas. Es decir, aquellas variables que sólo pueden tomar valor en dos alternativas. Por ejemplo: Si o No. De esta forma, la probabilidad únicamente puede tomar dos valores: éxito (p) o fracaso (q= 1-p). La varianza de las Bernoulli toma el valor pq. Por lo tanto, al ser complementarias, el mayor valor posible de ambas a la vez es de 0.5. Por lo tanto σ2max=0.5*0.5=0.25. Ahora, ya podemos calcular el tamaño muestral adecuado:

Tamaño muestral óptimo

Tamaño muestral óptimo

En el caso de que el n así decidido sea muy elevado, aplicando el Teorema Central del Límite (“Cuando un resultado se debe a un número muy elevado de causas independientes entre sí y de poca importancia individual, este resultado tiende a distribuirse como una Normal”) podemos tomar como valor k el que, en las tablas de la Normal, correspondería con el nivel de significación deseado. Esta es la decisión directa si sabemos que la población se distribuye como una Normal. Para un nivel de significación del 95%, el valor de la Normal en tablas es de 1.96, por lo que habitualmente, se toma el valor 2 para k. Por lo tanto:

 

 

Por ejemplo, considerando un nivel de confianza del 95% y un error muestral del 5%:
(1,96*1,96)*(0,5*0,5)/(0,05*0,05)= n = 384.16 ≈ 385
(2*2)*(0,5*0,5)/(0,05*0,05) = n = 400

Si la población en finita, menor que 100.000 sujetos, y el muestreo se efectúa sin reposición, habremos de efectuar una corrección:

En poblaciones heterogéneas es más conveniente estratificar para obtener representatividad en cada uno de los estratos reales. Para efectuarlo es necesario disponer de información inicial que permita segmentar claramente, la población. Al disponer de información estratificada sobre la dispersión de los datos en cada estrato, es posible reducir el tamaño muestral.

Tabla para el cálculo del tamaño muestral óptimo

Para simplificar nuestro trabajo, esta es una tabla calculada a partir de la fórmulas que hemos comentado antes:

Dispersión máxima estimada 0,25
Nivel de confianza 0,95 Error no muestral (a) 0,05
Error de muestreo «e» 0,02 0,025 0,03 0,05
Población infinita (>100,000) 2.500 1.600 1.111 400
Población finita
10.000 2.000 1.379 1.000 385
9.000 1.957 1.358 989 383
8.000 1.905 1.333 976 381
7.000 1.842 1.302 959 378
6.000 1.765 1.263 938 375
5.000 1.667 1.212 909 370
4.000 1.538 1.143 870 364
3.000 1.364 1.043 811 353
2.000 1.111 889 714 333
1.000 714 615 526 286

 


Bibliografía

Iniesta-Alemán, I., & Iniesta, L. (2010). Manual del consultor de Marketing. Editorial Profit.

Aún no hay respuestas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

46 + = 48