Expertos en estadistica, temas de muestreo

Wolas, a raiz de otro hilo donde para un analisis de 130.000 problemas con respuesta Falso o verdadero, se han usado 20 muestras aleatorias, me discuten que con ese valor se tiene a a la normalidad y que es perfectamente normal y acertado, el resultado es correcto.

estadistica avanzada me han dicho que es, mas alla de bachiller y que se da en la universidad, y yo admito que nunca me he cruzado con algun tipo de forma donde ese valor sea aceptable, y siempre he usado la formula tipica donde sale que necesitas 400 muestras para ese tamaño, por lo que ignoro de si existe algo asi.

alguien sabe algo que pueda justificar el usar solo 20 muestras?

gracias.
Npi, yo acabo de dar estadística en la universidad y no me suena (a lo mejor no estaba atento [+risas] ), si se supone que la muestra es representativa de la población no habría problema digo yo. ¿Qué fórmula es esa?

Tampoco sé muy bien cuál es la cuestión pero supongo que puedes usar la fórmula de la distribución binomial:

Si una prueba de Bernoulli (una prueba de Bernoulli es una en la que sólo pueden darse dos resultados posibles), se realiza consecutivamente n veces, de forma independiente y siempre en las mismas condiciones que la primera vez puede interesarnos conocer el número total de éxitos conseguidos.
En una prueba de Bernouilli, la variable aleatoria:

X = nº de éxitos aparecidos en n pruebas

decimos que sigue una distribución binomial de parámetros n y p.

X ----------> B(n,p)

p: probabilidad de obtener éxito en cada prueba

La función de probabilidad de la distribución binomial viene dada por:

Imagen

n: número de veces que se realiza el experimento
p: probabilidad de éxito en cada prueba
1-p: probabilidad de fracaso en cada prueba
k: nº de éxitos al que queremos calcular la probabilidad

Rango de k: 0,1,...,n

La media y la varianza de la distribución binomial son:

E(X) = np
Var(X) = np(1-p)
Estoy un poco oxidado y escribiendo desde el móvil, pero que ese tamaño muestral sea aceptable depende del nivel de confianza que quieras imponer de antemano.

Probablemente esos 400 te garantizan una confianza del 95%, mientras que los 20 te dan una del 90%.

Así pues... Depende de la probabilidad a equivocarte que quieras asumir.

Nota: para estas cosas se usan los "intervalos de confianza" y los "p-valores".
Pues se debería hacer un cálculo del tamaño muestral para ver cuantos son necesarios y aleatorizar bien la muestra.
Froz1984 escribió:Estoy un poco oxidado y escribiendo desde el móvil, pero que ese tamaño muestral sea aceptable depende del nivel de confianza que quieras imponer de antemano.

Probablemente esos 400 te garantizan una confianza del 95%, mientras que los 20 te dan una del 90%.

Así pues... Depende de la probabilidad a equivocarte que quieras asumir.

Nota: para estas cosas se usan los "intervalos de confianza" y los "p-valores".


y entonces, para que se se hacen encuestas de 400, la diferencia de un 5% no justifica el gasto no?
Enanon escribió:
Froz1984 escribió:Estoy un poco oxidado y escribiendo desde el móvil, pero que ese tamaño muestral sea aceptable depende del nivel de confianza que quieras imponer de antemano.

Probablemente esos 400 te garantizan una confianza del 95%, mientras que los 20 te dan una del 90%.

Así pues... Depende de la probabilidad a equivocarte que quieras asumir.

Nota: para estas cosas se usan los "intervalos de confianza" y los "p-valores".


y entonces, para que se se hacen encuestas de 400, la diferencia de un 5% no justifica el gasto no?


Ese es el tema, hay una pelea entre "lo fino" que debe ser el resultado y el dinero que cuesta repetir el "experimento".

Supongo que para sacar información a pie de calle te valdrá con tener por lo menos un nivel de confianza del 80% (número que me acabo de inventar), pero en otros campos es posible que tengas que tener por lo menos un 95% (suele ser el número estándar), o incluso 99% (no me extrañaría que en el LHC apunten a números como éste).

Igual, que la diferencia sea del 5% me lo saqué de la manga. Bien podría ser un 10%. Aumentar el porcentaje cada vez va a costar un número mayor de muestras a tomar.
Enanon escribió:y entonces, para que se se hacen encuestas de 400, la diferencia de un 5% no justifica el gasto no?

El tamaño muestral se calcula a partir de cuatro parámetros: tamaño del efecto (digamos la proporción denuncia falsa/verdadera), desviación estándar, error beta que viene a ser cuanto estás dispuesto a equivocarte, es lo que se conoce como potencia estadística y su valor es 1-beta (el mínimo de potencia aceptable es un 80%) y error alfa que es el 5% que comentaba alguien, por pura convención. En algunos casos se añade el tamaño de la población objetivo a la que quieres extrapolarlo pero la verdad apenas cambia, necesitas prácticamente las mismas personas para una encuesta electoral municipal que una nacional.

Como precisamente lo que quieren mirar es la proporción denuncia falsa/verdadera no les sirve esto porque desconocen ese valor. Entonces hay dos opciones, o coges una muestra grande (500-1000 denuncias al azar) o haces un estudio piloto con pocas personas (40-50) para poder estimar el tamaño del efecto y ahora sí, calcular cuanta gente necesitas.

Dudo que hayan hecho nada de esto.


Haciendo un cálculo rápido, para 130000 denuncias asumiendo la opción más conservadora y con un 95% de confianza necesitarás revisar unas 384 denuncias para tener una muestra representativa. Si bajamos el nivel de confianza al 80% que es el mínimo exigible normalmente se siguen necesitando 165 personas. De todas formas, si las denuncias falsas son muy escasas puede bajar el número necesario.
dark_hunter escribió:Haciendo un cálculo rápido, para 130000 denuncias asumiendo la opción más conservadora y con un 95% de confianza necesitarás revisar unas 384 denuncias para tener una muestra representativa. Si bajamos el nivel de confianza al 80% que es el mínimo exigible normalmente se siguen necesitando 165 personas. De todas formas, si las denuncias falsas son muy escasas puede bajar el número necesario.


es que ayer me decian que 20 muestras son suficientes haciendo noseque. y me parecen pocas muestras, pero me insistian en que estaba bien. por eso me extrañaba, pero como yo no hice estadistica en universidad lo mismo hay un algo que se me escapa.

thanks a ambos
Hay muchos factores, pero con los que das sale un margen de error superior al 21%.
8 respuestas