Hay algunas imágenes bonitas en Tumblr. Podemos usar las API de Tumblr para buscar y descargar imágenes; sin embargo, esto generalmente requiere el registro y las claves API. Otra forma es rastrear las páginas web HTML y analizar el DOM (Document Object Model), que nos permite recuperar las URL de las imágenes y sus descripciones.
Hay una biblioteca útil que se llama PHPQuery. Nos permite escribir PHP estilo JQuery de la misma manera que escribimos JQuery, usando selectores CSS. Hace que PHP sea poderoso para analizar el DOM de cualquier página HTML.
phpquery
El siguiente es un pseudocódigo que ilustra cómo analizar las páginas HTML y capturar las imágenes.
¡Con PHPQuery, se vuelve mucho más fácil analizar el DOM! Haz clic para twittear
Con una pequeña modificación, puede dejar que el script rastree varios miles de imágenes en unos pocos minutos. Todas las imágenes se guardan en bases de datos locales en el servidor VPS. Las imágenes se pueden ver en: uploadbeta.com
Es mejor establecer un intervalo de tiempo entre el rastreo de la página, de lo contrario, la dirección IP puede bloquearse.
Rastreo de imágenes
PD: el sitio web de carga de imágenes admite algunas API para diversos fines sujetos a la política de uso justo: https://uploadbeta.com/picture-gallery/faq.php#api