На Tumblr є кілька гарних зображень. Ми можемо використовувати Tumblr API для пошуку та завантаження зображень, однак зазвичай для цього потрібні ключі реєстрації та API. Іншим способом є сканування веб-сторінок HTML і аналіз DOM (об’єктної моделі документа), що дозволяє отримати URL-адреси зображень і їхні описи.
Існує зручна бібліотека, яка називається PHPQuery. Це дозволяє нам писати PHP у стилі JQuery так само, як ми пишемо JQuery, використовуючи селектори CSS. Це робить PHP потужним для аналізу DOM будь-яких HTML-сторінок.
phpquery
Нижче наведено псевдокод, який ілюструє, як аналізувати HTML – сторінки та захоплювати зображення.
З PHPQuery стає набагато простіше аналізувати DOM! Натисніть, щоб твітнути
З невеликими змінами ви можете дозволити сценарію сканувати кілька тисяч зображень за кілька хвилин. Усі зображення зберігаються в локальних базах даних на сервері VPS. Фотографії можна переглянути на: uploadbeta.com
Краще встановити проміжок часу між скануванням сторінки, інакше IP-адреса може бути заблокована.
Сканування зображень
PS, веб-сайт для завантаження зображень підтримує кілька API для різних цілей, що підпадають під дію політики добросовісного використання: https://uploadbeta.com/picture-gallery/faq.php#api