¿Se puede pasar de forma masiva el contenido de un pagina web a Word o PDF?

Bueno veréis es una duda que me surge todos hemos visto alguna vez algún articulo o post en una pagina web cualquiera que nos ha gustado y decidimos conservarlo en general para estos casos hacemos el típico "Copy and Paste" y lo guardamos en un documente de Word, Texto o PDF (mismamente yo lo he hecho con algunos post de aquí de EOL).

El problema surge cuando en lugar de ser 1, 2,3... o 24 artículos nos encontramos una pagina que por cualquier cuestión tiene artículos que nos resultan muy valiosos y no son pocos (como por ejemplo 6000 o más artículos) que querías conservar por si de repente un día cualquiera la pagina cierra y todo ese material se pierde para siempre quedando solo en tu recuerdo.

Bien esta claro que en estos casos hacer un "Copy and Paste" de semejante cantidad de artículos es imposible para una sola persona sin sacrificar al menos un mes entero trabajando las 24h al día.

Bien la pregunta es ¿Existe algún programa que automáticamente sea capaz de coger dichos artículos (respetando la codificación de caracteres) y guardarlos en Word o PDF?
Seria algo así como los programas de renombrado masivo de archivos pero en lugar de renombrar archivos convirtiendo artículos de una pagina web a Word.

La pagina de la cual hablo es http://www.lapizarradeyuri.com/ aunque podría agregar otras como http://francis.naukas.com/ o http://danielmarin.naukas.com/ en fin tengo una ristra de sitios de divulgación cientifica cada vez más grande (que literalmente contienen el conocimiento de la humanidad... XD ).
He probado a descargarme la base de datos de la pagina en cuestión usando HTTrack Website Copier y WebSuction.
Pero aunque si bien es cierto que estos programas lo que hacen es descargarse todos los datos de dicha pagina a "piñón" no es eso lo que busco (yo no quiero las fuentes o las hojas de estilo o.....) yo querría algo tan simple como que la información de texto de dicha pagina se me guardara en Word (con las imágenes de dicho articulo si las hubiese).

Todo esto bien a raíz de lamentablemente hace 2 días me encontré con que una de las múltiples artículos que utilizaba a menudo (y que tenia en marcadores) había sido borrado por que la pagina había cerrado (por si os interesa dicha pagina rusa estaba dedicada en exclusiva al Transbordador Burán y tenia una muy buena tanda de artículos (en ruso claro) sobre el desarrollo, características,vuelos he historia de todo el programa Burán Soviético con información técnica he informes oficiales desclasificados).
Lamentablemente se han perdido de dicha pagina sin exagerar almenes 200 artículos dedicados al programa Burán con la enorme perdida de material y conocimiento.

Saludos
Mirate uno de estos plugins para firefox:

-Save as PDF
-Web2PDF Converter
exitfor escribió:Mirate uno de estos plugins para firefox:

-Save as PDF
-Web2PDF Converter


OK en parte podría decirse que eso me facilita las cosas pero.... eso solo me automatiza la conversión de los artículos individuales.
Si estamos hablando de grandes cantidades de artículos incluso con eso la tarea se hace arduamente pesada.
En principio seria algo así pero con la opción de que yo le añada la url de la pagina principal y que se descargue y convierta automáticamente todos los artículos que se hallen en dicha pagina.

Saludos
Archivo->Imprimir->Guardar a pdf

Eso no te sirve?
Zokormazo escribió:Archivo->Imprimir->Guardar a pdf

Eso no te sirve?


El problema es la cantidad por eso lo que decía es que no es lo mismo hacerlo para un articulo que hacerlo para 3000 por eso lo que pedía era un programa que el sólito hiciese ese trabajo.
mmm, con gnu/linux te puedes hacer un script que te baje todos los html y asi al menos tener el contenido en texto.

luego ya habra muchas cosas que no funcionen, en funcion de como este hecha la pagina por detras. para windows no conozco nada.
Httrack te vale perfectamente, solo te tienes que acordar de abrir el index.html con un navegador y puedes navegar por toda la página offline.

Ya sé que se descarga 63783 archivos, pero a ti eso te debería dar igual mientras puedas navegar por la página con tranquilidad. Te puedes poner un acceso directo o algo así.
o wget tenia tambien alguna opcion para bajarse una web entera a local.
el complemento para firefoz autopager

entras al hilo que te interesa y solo te va cargando la siguiente pagina segun como
lo tengas configurado de 1 a 5 y no recuerdo cuantas mas. pero vas cargando hasta llegar a la ultima y ya seleccionas el contenido y lo copeas a word esa es la unica manera. ademas de que hay paginas como eol que no las soporta pero se acerca msa a lo que estas buscando. saludos
amchacon escribió:Httrack te vale perfectamente, solo te tienes que acordar de abrir el index.html con un navegador y puedes navegar por toda la página offline.

Ya sé que se descarga 63783 archivos, pero a ti eso te debería dar igual mientras puedas navegar por la página con tranquilidad. Te puedes poner un acceso directo o algo así.


Bueno tras 9 días 12 horas y algo más de media hora por fin se a terminado de descargar una de las webs de las tres docenas que tengo [angelito]
Han sido en total 21,71GB y se ha bajado a una media de 25KB/s
¿Es normal que me tarde tanto tiempo y que baja a esa velocidad teniendo yo 7,5MB/s de bajada y 750KB/s de subida?

Saludos
Perfect Ardamax escribió:¿Es normal que me tarde tanto tiempo y que baja a esa velocidad teniendo yo 7,5MB/s de bajada y 750KB/s de subida?

Probablemente el servidor asigne esa velocidad de subida a cada cliente.
10 respuestas