Como comentan, el problema no es el contenedor, si no el codec usado tanto en vídeo como en audio, un H264 o X264, requieren mucho procesador, por lo que, a no se que sean vídeos de 50x50 pixeles, te irán a trompicones. Si a eso le añadimos audios que requieran tambien mucho procesador (AAC), pues lo mismo.