Yo no usaria FFMPEG; que lo conozco muy bien, y por ello mismo es un poco engorroso en lo referente a las cabeceras e indicar el fourcc. Inisto, un MUKLTIPLEXOR es lo mas sencillo, los programas de video usan el multiplexor para la salida final del archivo de video, el editor crea el stream de video y de audio, abre el multiplexor para crear y abrir el archivo CONTENEDOR [mkv, mp4, avi, ogm, etc.] y 'mete' ese stream de audio y video.
El multiplxor servira, mientras como dije, todos los clips de video [o archivos de video] contengan el stream de video y de audio con el mismo formato de video y audio, que tengan las mismas configuraciones de codificacion [resolucion, bitrate, etc.]