Cuidado, en esa gráfica aparece el tiempo en cpu que se usa para dos cosas que hay que definirlas bien:
1.- App+GFX -> Es una forma de medir el tiempo de cpu usado por cada core en un mismo frame, para procesar toda la carga del juego en sí además del procesado para 3d y las llamadas al API que hubieran.
2.- GFX -> Éste es el dato "real" sobre coste de tiempo de cpu por el uso de un API u otro, en este caso el tiempo de cpu es el doble, aparentemente.
Pero otra vez, hay que leer con atención, en realidad esta suma total que hace es un poco falsa aunque útil para hacer algunas cuentas, pero no del todo, ya que en realidad en estos casos la velocidad "final" y "real", el tiempo que tarda realmente la cpu en procesar este frame antes de enviarlo a la gráfica, no es la suma de estas cantidades, sino la cantidad más alta en un hilo concreto de estos casos (evidentemente están mostrando el caso del rendimiento de un quad core con 4 hilos de ejecución para la aplicación, más allá de lo que haga o no haga el API y driver por detrás).
Así en el caso de DX11 se tardaría 7,88 ms en enviar dicho frame a procesar a la gráfica, y con DX12 sería 3,8 ms. En el caso de ver el tiempo "perdido" en el proceso de setup 3d y llamadas de API, preparando dicho frame, y dejando de lado el tiempo necesario para la aplicación que no tiene que ver con estos temas (físicas, IAs, IOs, motor de sonido, etc), es donde más se notaría este cambio, ya que con DX11 se tardaría 5,73 ms y con DX12 se tardaría 1,17 ms.
Viendo la carga además en cada "thread" dedicado al procesado 3d y el API, vemos que con DX11 además de consumir más tiempo en total, rebalancea poco estos procesos, mientras que con DX12, a pesar de que parece haber un hilo que lleva la batura, hay un reparto de carga bastante equitativo (entre el hilo con más carga y el que menos hay por debajo del doble de diferencia de tiempo necesario, mientras que con DX11 un hilo acapara el 86% de tiempo de cpu necesario para estas cuestiones).
Pero bueno, todo esto es muy bonito, pero lo dicho, es suponiendo poco peso en la carga de trabajo de la aplicación, con respecto al uso del API, y sin contar por supuesto el tiempo que tarda la gpu en renderizar un frame dado. Aunque pueda trabajar en paralelo la cpu en preparar el siguiente frame, etc, esto no quiere decir que no tenga importancia. Es un dato bastante experimental, por ser lo que es, una situación de demostración técnica.