¿Como capturar una wiki con sus hiper vinculos de forma automática?

Se trata de una wiki pequeña, pero aún así puede ser tedioso capturar el pdf de cada página y unificarlo todo, ¿hay alguna forma de guardalo todo en formato html?.

En su defecto, también me valdría la forma de guardar automáticamente en pdf cada artículo de cada hipervínculo.


Gracias.
No entiendo lo que quieres hacer.

Puede ser:

1) Entrar en 1 wiki (web) coger todos los enlaces que existen.

2) Por cada enlace existente, visitar la web para poder coger si contenido.

3) Ese contenido guardarlo en HTML / PDF o el formato que quieras.
Creo que https://www.httrack.com/ es perfecto para lo que buscas.
J_sevillista escribió:Creo que https://www.httrack.com/ es perfecto para lo que buscas.


Gracias, le echaré un vistazo en cuanto llegue a casa.

Newton escribió:No entiendo lo que quieres hacer.

Puede ser:

1) Entrar en 1 wiki (web) coger todos los enlaces que existen.

2) Por cada enlace existente, visitar la web para poder coger si contenido.

3) Ese contenido guardarlo en HTML / PDF o el formato que quieras.


Claro, lo que tiene es que es mas engorroso.
Señor Ventura escribió:
J_sevillista escribió:Creo que https://www.httrack.com/ es perfecto para lo que buscas.


Gracias, le echaré un vistazo en cuanto llegue a casa.

Newton escribió:No entiendo lo que quieres hacer.

Puede ser:

1) Entrar en 1 wiki (web) coger todos los enlaces que existen.

2) Por cada enlace existente, visitar la web para poder coger si contenido.

3) Ese contenido guardarlo en HTML / PDF o el formato que quieras.


Claro, lo que tiene es que es mas engorroso.


¿Tienes conocimientos de Python?

1) Con Beautifulsoup no deberías de tener problemas para sacar los enlaces.

2) Con el listado de enlaces, tendrías que visitarlos 1 a 1.

3) Por cada visita a cada enlace, guardar su contenido a HTML / PDF [ https://code.activestate.com/recipes/57 ... oup-and-x/ ]

Cómo ves, no es muy díficil, pero requiere dividir el problema en distintas etapas y tener unos mínimos conocimientos de Python ;)
@Newton ¿No seria lo mismo con pdf creator?, luego unificar o no unificar las capturas se hace rápido (o no se hace xD).
Señor Ventura escribió:@Newton ¿No seria lo mismo con pdf creator?, luego unificar o no unificar las capturas se hace rápido (o no se hace xD).


¿Con PDF Creator qué es lo que haces? :-?

Si tienes conocimientos de Python, dividiendo el problema y con distintas librerias lo podrías automatizar.

Si quieres hacerlo manual, puedes ir metiendo la lista de direcciones web e ir generando los PDFs por ejemplo con https://www.web2pdfconvert.com/ y cómo dices después unificarlos.
6 respuestas