Estrategia a seguir

Hola, pos que tengo una duda, que no se que puede ser mas conveniente, os explico, tengo un monton de datos en infinitos ficheros html, y resulta que quieren meterlos en una base de datos ya existente. Como el proceso manual de corta y pega por el cual es posible introducir los datos en esa aplicacion web es muy laborioso ante tan cantidad de nuevos datos, quieren automatizarlo.

Y claro, el que se tiene que comer la cabeza soy yo.

Se me ha ocurrido que se puede hacer un script en php en el cual, intruduzcas el archivo correspondiente, y el solito quite toda la paja (los tags html, los codigos javascript, etc) y deje solo los datos utiles, y los guarde en un archivo o los suba directamente a la base de datos.

La otra es limpiar "manualmente" (o con cualquier programa ya existente que permitiese automatizar de cierta manera esto, si es que existe) los archivos y que el script solo tubiese que subirlos a la base de datos.

Asi que, cual eligiriais vosotros? Cual creeis que seria el menos laborioso? Os agradeceria cualquier pista de la cual tirar despues de google en cualquiera de los dos metodos, puesto que estoy mas perdio que un pinguino en un garaje.

Gracias.
habria que examinar primero como son los archivos html, una vez se vea como son y los tengas examinados, pensar cual seria la mejor manera.
kr0n escribió:habria que examinar primero como son los archivos html, una vez se vea como son y los tengas examinados, pensar cual seria la mejor manera.


bien..... pues son una pagina web.... con todo lo que conlleva..... y encima sin hacer uso de css. Como cosa que creo que puede ser de utilidad, es que cada dato que tengo que extraer esta entre un el dato (son textos) ... asi que habia pensado que se podria hacer que se detectase cuando hay un y extrayese solo lo que hay dentro... pero mi experiencia con el manejo de archivos es bastante pobre (un par de practicas basicas en C) y antes de ponerme me gustaria saber si es muy engorroso y dificultoso este metodo, o si hay otro mejor. Tengo pensado hacerlo con PHP.
Pues si todos van entre DATO hazte un programita en C mismo o en VB. Solo es saber utilizar 2 o 3 funciones de cadenas e ir leyendo fila a fila el fichero. Es muy facil asi :D

Lo chungo hubiese sido que cada dato hubiese estado delimitado por diferentes etiquetas, pero asi esta tirao :D
No sé lo complejo que es lo que planteas, pero para algo sencillo usaría flex, que en un generador de analizadores léxicos.
4 respuestas