Ayuda con un algoritmo.

Question

Ayuda con un algoritmo.

manugarrote 24 nov 2009 00:22

Sicut in coelo et...

4.401 mensajes
desde dic 2005
en Madrid

Estoy intentando desarrollar una aplicación para unas jornadas de software libre en mi uni. El programa lo que hace es obtener los contenidos de una web y mostrarlos (mucho más simple que un lector RSS y sólo para una web en concreto). La forma que se me ha ocurrido y que ya he utilizado otras veces consiste en descargar el código fuente de la página, cargarlo en una variable e ir "interpretando"* el código.

*Realmente lo que hago es ir troceando la variable buscando etiquetas conocidas. Por ejemplo:

    <item>
      <title><![CDATA[Tres fragmentos de Planet 51]]></title>
      <link>http://www.cineol.net/noticias/6978_Tres-fragmentos-de-Planet-51</link>
      <description><![CDATA[ ]]></description>
      <content:encoded><![CDATA[<p> </p>]]></content:encoded>
      <pubDate>Mon, 23 Nov 2009 23:17:28 +0000</pubDate>
    </item>

Buscaría dentro de la variable esta cadena <title><![CDATA[ y cortaría a partir de ahí hasta encontrarme con ]></title>, luego buscaría <link> hasta </link> y así sucesivamente.

No sé si me he explicado con claridad, pero este método me ha funcionado (aunque con muchas menos etiquetas). El caso es que mi profesor me ha dicho que es muy poco efectivo, feo, confuso... y que no es un buen ejemplo de programación y menos aún un código para mostrar al público [buuuaaaa]

ah, y que soy un guarrete programando

¿Qué otras formas se os ocurre de hacer algo así? GRACIAS!!!

7 respuestas

Answer 1 · 2009-11-23T23:29:29+00:00

Tal vez con flex y bison, no sé si los conoces.

De una asignatura que tuve ( http://webdiis.unizar.es/asignaturas/LGA/ ) puedes mirar este pdf de introducción a ver si te sirve: http://webdiis.unizar.es/asignaturas/LG ... _Bison.pdf

Answer 2 · 2009-11-23T23:42:13+00:00

Eso te lo han dicho seguro porque estas reinventando la rueda, depende del lenguaje que estes utilizando existen parseadores hechos especificamente para tratar con HTML, por poner un ejemplo está la libreria HTMLparser en python el cual hace exactamente lo que necesitas. Una busqueda en google "html+parser+<lenguaje>" te quitará las dudas.

Answer 3 · 2009-11-24T00:07:57+00:00

Justamente, parseando el código HTML lo logras muy fácilmente. Eso sí, cuidado que el código html sea correcto, pues me imagino que a la mayoría de las bibliotecas de este tipo les disgustará código incorrecto.

Si es XHTML lo más probable es que puedas hacerlo incluso con un parseador de xml.

Saludos.

Answer 4 · 2009-11-24T00:21:53+00:00

No sabía que existín los parsers. He estado buscando información y he visto la luz xD
Muchas GRACIAS a todos.

#68527# 24 nov 2009 07:30 · Answer 5 · 2009-11-24T06:30:39+00:00

También puedes tirar de expresiones regulares, las cuales te permitirán buscar cadenas en cualquier tipo de datos.

Answer 6 · 2009-11-24T23:41:09+00:00

elchicosinhada escribió:También puedes tirar de expresiones regulares, las cuales te permitirán buscar cadenas en cualquier tipo de datos.

Es otra posibilidad, es más, no dudo de que algún parseador los use.

Regex rulez!! [pos eso]

Answer 7 · 2009-11-25T17:41:06+00:00

He visto que el SDK de Android trae un parser, así que miraré la documentación y ya os preguntaré más cosas

Gracias por las respuestas!!