Fallstudie: använd PHPQuery för att genomsöka 3000 bilder från Tumblr
Det finns några fina bilder på Tumblr. Vi kan använda Tumblr API:er för att söka och ladda ner bilder, men detta kräver vanligtvis registrering och API-nycklar. Ett annat sätt är att genomsöka HTML-webbsidorna och analysera DOM (Document Object Model), vilket gör att vi kan hämta bildens webbadresser och deras beskrivningar.
Det finns ett praktiskt bibliotek som heter PHPQuery. Det tillåter oss att skriva JQuery-stil PHP på det sätt som vi skriver JQuery, med hjälp av CSS-väljare. Det gör PHP kraftfull för att analysera DOM för alla HTML-sidor.
phpquery
Följande är en psudo-kod som illustrerar hur man analyserar HTML – sidorna och tar tag i bilderna.
Med PHPQuery blir det så mycket lättare att analysera DOM! Klicka för att tweeta
Med liten modifiering kan du låta skriptet genomsöka flera tusen bilder inom några minuter. Alla bilder sparas i lokala databaser i VPS-servern. Bilderna kan ses på: uploadbeta.com
Det är bättre att ställa in ett tidsintervall mellan genomsökning av sidor, annars kan IP-adressen blockeras.
Genomsökning av bild
PS, webbplatsen för bilduppladdning stöder några API:er för olika ändamål som omfattas av policyn för tillåten användning: https://uploadbeta.com/picture-gallery/faq.php#api