nuestro amigo XML esta muerto y enterrado. todo el mundo usa JSON hoy dia, se ha terminado imponiendo por sencillez.
hacer un scrapper (lo que se denomina comunmente un spider o parser) se hace en 4 lineas guarras de PHP y un par de expresiones regulares. de hecho, en su dia hice un scrapper para IMDB que me sacaba toda la info de una peli y no llegaba a las 100 lineas (guardando info en la base de datos y todo). el 'core' del scrapper (que como digo, eran 3 expresiones regulares) eran 8 lineas. el resto era comprobacion de errores, acceso a la BBDD, el file_get_contents...
eso si, para usar un scrapper, una norma de 'civismo web' es mirar antes el robots.txt a ver que permiten y que no. y sobre todo, no ser muy insistente con las peticiones. hacer mas de 2 peticiones por minuto, o mas de 50 diarias, esta 'mal visto'. Y el tema canta mucho porque a poco que el webmaster tire de 'access.log' y un par de greps, tu IP va a cantar por soleares. De ahi, a que redirija las peticiones de tu IP a goatse, hay solo un paso.