El teorema central del límite indica que a partir de cierto número de integrantes en la muestra la distribución se ajusta a una normal. Eso significa que a partir de ahí por mucho que aumentes la muestra apenas van a cambiar los resultados,siempre que la muestra sea aleatoria. Como eso es casi imposible se toman bastantes más personas de las que realmente harían falta en un mundo ideal, pero sigue sin ser necesario tomar más de 3000 personas si se aleatoriza bien la muestra.
Ahora vamos a lo del margen de error. Hemos dicho que la distribución se asemeja a una normal, por lo tanto es un rango, no un valor único, es por ello que hablar de la media sin nombrar la desviación estándar no sirve de nada (a lo que habría que añadir la asimetría, muy típica en biología y en la distribución de salarios por ejemplo). Pues bien, como sabemos las propiedades de una distribución normal, podemos calcular a cuanta gente abarcamos según ampliamos o disminuimos el rango alrededor del valor medio. Pues bien, si sumamos una desviación estándar a cada lado abarcamos al 64% de la gente aproximadamente (hablo de memoria, no se ese valor). Si vamos más allá y aumentamos el intervalo a dos desviaciones estándar abarcamos a casi el 95% de la gente, de ahí ese 5%. con 3 desviaciones estándar ya llegamos a algo más del 99% pero el intervalo ya es demasiado grande, por eso se suele dejar en dos desviaciones estándar. Esto no es así del todo porque realmente es el error estándar lo que se calcula, pero como concepto es bastante más difícil de entender y el valor es bastante similar, de hecho se calcula a partir de la desviación estándar.
Por este mismo motivo, una de cada 20 veces que tomes una muestra la media real de la población estará fuera de ese intervalo y por lo tanto no acertarás, incluso aunque la muestra sea perfectamente aleatoria. Es el 5% de margen que se asume.