La arquitectura de computadores es todo un mundo del que se podría hablar largo y tendido. Yo intentaré dar un par de pinceladas:
La distribución de la carga de trabajo entre varios nucleos se puede hacer de muchas formas y todo dependerá del grado de libertad que tenga el programador sobre el SO. En un pc tu puedes programar algo y que el SO se encargue de distribuirlo entre procesadores, cores, etc o puedes tener la posibilidad de especificar tú en qué core quieres que se corra el proceso.
El hecho de que un proceso se divida en varios threads y cada thread se ejecute en un core no es trivial. Todo dependerá de la relación entre threads, si uno depende de los otros, si escriben en las mismas posiciones del mapa de memoria o no, etc
Si mal no recuerdo, los procesadores actuales están fabricados con tecnología CMOS. El consumo de las puertas CMOS se produce mayoritariamente al cambiar de estado, cosa que se produce cuando hay carga en el procesador. Por lo tanto aunque esté alimentado y con los relojes como se ha dicho por ahí, si no hay carga, no hay consumo (a ver, si que lo hay, pero menor).
Y por ahora nada más que decir.
Un saludo!!