✅ Noticias, temas, complementos de WEB y WordPress. Aquí compartimos consejos y las mejores soluciones para sitios web.

Estudio de caso: use PHPQuery para rastrear 3000 imágenes de Tumblr

10

Hay algunas imágenes bonitas en Tumblr. Podemos usar las API de Tumblr para buscar y descargar imágenes; sin embargo, esto generalmente requiere el registro y las claves API. Otra forma es rastrear las páginas web HTML y analizar el DOM (Document Object Model), que nos permite recuperar las URL de las imágenes y sus descripciones.

Hay una biblioteca útil que se llama PHPQuery. Nos permite escribir PHP estilo JQuery de la misma manera que escribimos JQuery, usando selectores CSS. Hace que PHP sea poderoso para analizar el DOM de cualquier página HTML.

phpquery

El siguiente es un pseudocódigo que ilustra cómo analizar las páginas HTML y capturar las imágenes.

¡Con PHPQuery, se vuelve mucho más fácil analizar el DOM! Haz clic para twittear

Con una pequeña modificación, puede dejar que el script rastree varios miles de imágenes en unos pocos minutos. Todas las imágenes se guardan en bases de datos locales en el servidor VPS. Las imágenes se pueden ver en: uploadbeta.com

Es mejor establecer un intervalo de tiempo entre el rastreo de la página, de lo contrario, la dirección IP puede bloquearse.

Estudio de caso: use PHPQuery para rastrear 3000 imágenes de Tumblr

Rastreo de imágenes

PD: el sitio web de carga de imágenes admite algunas API para diversos fines sujetos a la política de uso justo: https://uploadbeta.com/picture-gallery/faq.php#api

Fuente de grabación: helloacm.com

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More