Navegador especializado en scraping

Question

Navegador especializado en scraping

alex120 27 jul 2020 17:33

MegaAdicto!!!

8.888 mensajes
desde may 2001
en Zaragoza (España)

Hola. Necesito saber si algún navegador especializado para hacer scraping

Tengo varias opciones
Un navegador con dos parametros (la url, y una fichero del hd)
En este caso la idea es:
A) Que se abra el navegador.
B) Cargar la url
C) Esperar a que la pagina este completamente cargada
D) Guardar la pagina en el HD (en el parametro especificado)

O esta opcion.
Un navegador con tres parametros (la url,, un delay y una fichero del hd)
En este caso la idea es:
A) Que se abra el navegador.
B) Cargar la url
C) Esperar el tiempo marcado por el delay.
D) Guardar la pagina en el HD (en el parametro especificado)

Actualmente lo hago con el autoit, enviado teclas. El problema es que no se puede hacer otra cosa mientras tanto.

Tambien he probado con el ChromeDriver, pero no lo hago funcionar. Ni consigo recuperar el html correcto, ni salvar la web en el hd

8 respuestas

Answer 1 · 2020-07-27T16:40:01+00:00

Necesitas la web completa así como para visualizarla? O solo algún dato de ella?

#543099# 27 jul 2020 17:43 · Answer 2 · 2020-07-27T16:43:01+00:00

¿Has probado con la herramienta wget? Se pueden hacer las dos cosas que buscas.

Creo que también existe alguna implementación para Windows.

Answer 3 · 2020-07-27T16:47:24+00:00

alvaro101 escribió:Necesitas la web completa así como para visualizarla? O solo algún dato de ella?

Solo el html. Pero no me vale el que envía el servidor. Tiene que el que interpreta el navegador (supongo que algun framework de javascript como jquery, angular)

Cuando la salvo a mano. Se me genera lo siguiente.

1.html
\1_files\

Y en es directorio varios html (cojo el mas grande).

Pero lo dicho lo que busco es un fichero html con todo el código.

Edito.

El wget solo baja el codigo del servidor, no interpreta el javascript.

Answer 4 · 2020-07-27T17:00:31+00:00

Si depende de info que da js tiene que ser navegador si.
Selenium o puppeter se que se usan para eso, pero no sabría decirte mas porque no he probado.

Pásame la url (por aquí o por privado) hago una prueba, te paso el html que pueda sacar con un programilla y si te sirve indagamos indagamos esa vía. Es sencillo, no requiere hacerlo visualmente ni un pc encendido ni nada, pero carga solo html, por eso la duda que te digo.

#543099# 27 jul 2020 18:09 · Answer 5 · 2020-07-27T17:09:14+00:00

¿Y hacer un botón derecho > Ver código fuente de la página > Seleccionar todo > Copiar... y pegarlo en un txt?

Answer 6 · 2020-07-27T18:00:43+00:00

@alvaro101

Por ejemplo

https://www.packtpub.com/eu/catalogsear ... Margaritis)

@Hombre Ilusorio

Hay veces que no coincide el codigo fuente con lo que se muestra en el navegador. Ademas debe ser un proceso automatico

Answer 7 · 2020-07-27T18:12:45+00:00

@alex120 revisa si de casualidad te sirve y está ahí la info que necesitas

https://drive.google.com/file/d/1TrKoY3 ... p=drivesdk

Answer 8 · 2020-07-27T18:24:24+00:00

alvaro101 escribió:@alex120 revisa si de casualidad te sirve y está ahí la info que necesitas

https://drive.google.com/file/d/1TrKoY3 ... p=drivesdk

No gracias. He mirado y creo que es exactamente lo mismo que cuando haces un peticion con webclient (C#)

Es curioso porque he vuelto a mirar con selinum y para esta pagina si fucniona

            var chromeOptions = new ChromeOptions
            {
                PageLoadStrategy = PageLoadStrategy.Eager
            };
            chromeOptions.AddArguments("--dump-dom", "--disable-gpu");
            ChromeDriver driver = new ChromeDriver(chromeOptions)
            {
                Url = link,
            };

            driver.Url = link;
            Thread.Sleep(1000);
            driver.Url = link;
            Thread.Sleep(50000);
            string html = driver.ExecuteScript("return document.documentElement.outerHTML;").ToString();
            driver.Close();
            return html;

En cambio para otra que tengo no funciona