Por experiencia te recomendaría Nagios. Podrás controlar todo estos eventos, discos, si está viva la máquina. Otro tema ya es el de la CPU, que por lo que dices necesitas algo más proactivo. Aquí Nagios, como otros, falla un poco ya que los chequeos son programados cada x minutos. Lo que puedes hacer es algún script para Nagios para este tema de la CPU.
Googleando un poco seguro que encuentra info.
Saludos