¡Gscraper es una puta maravilla y punto! Si todavía no conoces el mejor scrapeador que hay en el mercado, te aconsejo que te leas mi artículo sobre GScraper, en el que seguro que te vas a enterar de unas cuantas cosas que no sabías…
Pero también es cierto que si bien el precio de la licencia no es insuperable, si lo puede ser la suscripción mensual a sus proxies, que una vez que los has probado, es dificil no caer en la tentación de adquirirlos.
Pero… ¿Hay alguna manera de hacer funcionar GScraper de forma continua sin sus proxies? ¿Y si la hay, es más económica que lo que ofrecen los chinos de GScraper?
Bien, la respuesta es un SÍ rotundo, simplemente hay que saber cómo funcionan las herramientas que tenemos a nuestra disposición…
[sociallocker]
Déjame que te presente a un amigo: Aquí GatherProxy, aquí un lector de mi blog… :p
No sé si lo conoces de antemano, pero ésta herramienta lo que hace es buscar proxies y comprobarlos. ¡Qué bueno! El único problema es que tiene dos versiones: una gratuita, y otra de pago…
En su versión gratuita, podrás buscar proxies y una vez que los haya encontrado, meterlos en GScraper para que realice nuestras operaciones de scrapeo. Sólo tiene un «pequeño» inconveniente, y es que tienes que parar GScraper para poder meterle los nuevos proxies que has encontrado con la versión gratuita de Gather Proxy.
La buena noticia es que con un único pago de 25$, tendrás la versión premium cuya diferencia más reseñable con respecto a la versión gratuita es ésta: ¿Lo ves bien? Bueno, pues es una «mierdecilla» de opción, ¡pero ésta opción va a hacer posible que podamos alimentar a nuestro scrapeador favorito de forma ininterrumpida!
Al poder seleccionar que queremos guardar los resultados en un fichero de texto, podremos así utilizar ésta opción de GScraper: En la que por un lado, almacenamos los proxies en un fichero de texto dónde queramos, y por el otro, le indicamos a GScraper dónde puede alimentarse constantemente de nuevos proxies. ¡De ésta manera, podemos tener el programa funcionando sin parar hasta que termine con sus tareas de scrapeo, sin tener que pararlo para meterle nuevos proxies!
[/sociallocker]
Y así, tal y como acabas de ver, podrás tener GScraper funcionando de forma ininterrumpida, sin que se le acaben los proxies, y sin depender de una suscripción a un servicio cuyo coste asciende a más de 60$ al mes… 🙂
No sólo eso, sino que además puedes utilizarla en combinación con servicios del estilo DropBox de modo que puedas tener en un ordenador el programa generando proxies frescos todo el rato, y en otro (por ejemplo un VPS) dónde tengas instalado GScraper, una tarea grande de scrapeo para generar unas listas para GSA o lo qué nos parezca más apropiado para nuestros proyectos…
Nos leemos por la red. No robes, no mates, no estafes y no metas demasiada mierda en blogs que no son tuyos… :p
Comentarios
Mmm.. no termino de entender este artículo.
GScraper necesita (si me equivoco por favor corregirme) proxies «Google passed» como cualquier otro scraper que utilice los resultados de dicho buscador.
Ahora bien, no explicas que tienes que configurar la herramienta para que compruebe si son Google passed los proxies y solo exporten los que sí lo son.
Pero la verdad, mi experiencia scrapeando proxies con ésta herramienta es mala, horas y horas para unos pocos Google passed que dejan de funcionar al cabo de unas horas… realmente hay que encontrar buenas fuentes de proxies para así hallar muchos Google passed, pero toda lista pública casi seguro ya fue explotada por lo cual obtener proxies así es algo tedioso y requiere sí o sí tener 24/7 funcionando el programa.
Generalmente, a mí parecer, la mejor opción para scrapers es comprar mensualmente proxies semiprivados (o privados a un mayor precio) dedicados a este tipo de software, no es gratis, pero son efectivos (te reemplazan los proxies que dejan de ser Google passed por lo general) y cuestan menos de $60 por mes, aunque todo depende del volumen de búsquedas que se haga con el scraper utilizado.
Es mi opinión, pero si alguien opina distinto que me responda o si me equivoco por favor hacérmelo saber.
Saludos 😀
¡Hola, gracias por tu comentario! He borrado tu enlace ya que apunta a una página de descargas ilegales y la verdad es que no nos gusta tener éste tipo de enlaces salientes en la web 🙂
Vamos al grano…
Cierto es que no he explicado como configurar la herramienta para que compruebe los proxies que scrapea, pero es que el post se centra en una (en breve habrá una extra) técnica para hacer correr GScraper sin depender de sus proxies y no en la configuración de la herramienta en sí…
Si has usado GScraper, cosa que no dudo, sabes que una tarea de scrapeo del programa puede durar más de 24 horas. Por ello tienen la opción de enviar un correo electrónico cuando termine la tarea. Por lo tanto una tarea de scrapeo que dura tanto tiempo requiere tener funcionando la herramienta el mismo tiempo que dure la tarea de GScraper. Cuando empecé a usar ésta técnica fué precisamente a la hora de crear listas gigantescas de varios millones de URLs para GSA…
La solución que propones de proxies privados o semiprivados tienen el inconveniente, al menos esa es mi experiencia, que GScraper los quema en menos que canta un gallo. ¡Y cuando digo que los quema es que los deja literalmente muertos! ¿Es posible que los proxies privados que he usado no fueran lo suficientemente buenos? Pues es posible, pero he probado con tres empresas distintas, siempre con el mismo resultado. 🙁
Evidentemente, nada sustituye al producto original, que son los proxies propios de GSCraper, pero si no tienes un volumen de scrapeo que justifique o produzca un ROI positivo con respecto al coste mensual de 60 y tantos dólares que tienen los proxies propios de Gscraper, digamos que ésta puede ser una solución de compromiso válida.
Nos vemos por el ciberespacio! 😉
Gran aporte… ahora no hay mas que probarlo. Entiendo que los proxys que encuentra la herramienta son gratuitos.. no se queman de inmediato??
Te funciona bien esta técnica?
gracias!!
Muchas gracias Rubén 🙂
Al tener el programa funcionando de manera continua, lo que hace es alimentar GScraper también de manera continua.
Evidentemente, GScraper no obtiene resultados tan rápido como cuando usa sus propios proxies, pero en un PC con una configuración «normalita» puedes alcanzar los 12kURLs/minuto sin problemas.
¡Tengo pendiente poner una captura que demuestre mi afirmación anterior, así como poner una técnica alternativa sin usar éste programa!
Nos leemos en la red 😉