Navegador especializado en scraping

Hola. Necesito saber si algún navegador especializado para hacer scraping

Tengo varias opciones
Un navegador con dos parametros (la url, y una fichero del hd)
En este caso la idea es:
A) Que se abra el navegador.
B) Cargar la url
C) Esperar a que la pagina este completamente cargada
D) Guardar la pagina en el HD (en el parametro especificado)

O esta opcion.
Un navegador con tres parametros (la url,, un delay y una fichero del hd)
En este caso la idea es:
A) Que se abra el navegador.
B) Cargar la url
C) Esperar el tiempo marcado por el delay.
D) Guardar la pagina en el HD (en el parametro especificado)


Actualmente lo hago con el autoit, enviado teclas. El problema es que no se puede hacer otra cosa mientras tanto.

Tambien he probado con el ChromeDriver, pero no lo hago funcionar. Ni consigo recuperar el html correcto, ni salvar la web en el hd
Necesitas la web completa así como para visualizarla? O solo algún dato de ella?
¿Has probado con la herramienta wget? Se pueden hacer las dos cosas que buscas.

Creo que también existe alguna implementación para Windows.
alvaro101 escribió:Necesitas la web completa así como para visualizarla? O solo algún dato de ella?


Solo el html. Pero no me vale el que envía el servidor. Tiene que el que interpreta el navegador (supongo que algun framework de javascript como jquery, angular)

Cuando la salvo a mano. Se me genera lo siguiente.

1.html
\1_files\

Y en es directorio varios html (cojo el mas grande).

Pero lo dicho lo que busco es un fichero html con todo el código.

Edito.

El wget solo baja el codigo del servidor, no interpreta el javascript.
Si depende de info que da js tiene que ser navegador si.
Selenium o puppeter se que se usan para eso, pero no sabría decirte mas porque no he probado.

Pásame la url (por aquí o por privado) hago una prueba, te paso el html que pueda sacar con un programilla y si te sirve indagamos indagamos esa vía. Es sencillo, no requiere hacerlo visualmente ni un pc encendido ni nada, pero carga solo html, por eso la duda que te digo.
¿Y hacer un botón derecho > Ver código fuente de la página > Seleccionar todo > Copiar... y pegarlo en un txt?
@alvaro101

Por ejemplo

https://www.packtpub.com/eu/catalogsear ... Margaritis)

@Hombre Ilusorio

Hay veces que no coincide el codigo fuente con lo que se muestra en el navegador. Ademas debe ser un proceso automatico
@alex120 revisa si de casualidad te sirve y está ahí la info que necesitas

https://drive.google.com/file/d/1TrKoY3 ... p=drivesdk
alvaro101 escribió:@alex120 revisa si de casualidad te sirve y está ahí la info que necesitas

https://drive.google.com/file/d/1TrKoY3 ... p=drivesdk


No gracias. He mirado y creo que es exactamente lo mismo que cuando haces un peticion con webclient (C#)

Es curioso porque he vuelto a mirar con selinum y para esta pagina si fucniona

            var chromeOptions = new ChromeOptions
            {
                PageLoadStrategy = PageLoadStrategy.Eager
            };
            chromeOptions.AddArguments("--dump-dom", "--disable-gpu");
            ChromeDriver driver = new ChromeDriver(chromeOptions)
            {
                Url = link,
            };

            driver.Url = link;
            Thread.Sleep(1000);
            driver.Url = link;
            Thread.Sleep(50000);
            string html = driver.ExecuteScript("return document.documentElement.outerHTML;").ToString();
            driver.Close();
            return html;


En cambio para otra que tengo no funciona
8 respuestas