✅ WEB і WordPress новини, теми, плагіни. Тут ми ділимося порадами і кращими рішеннями для сайтів.

Зупиніть розлючених ботів, таких як 360Spider, сканувати мій сайт

15

Мій веб-сайт steakovercooked.com був на одному з серверів спільного хостингу fasthost. Останнім часом мій сайт багато разів відключався через величезну кількість запитів на мій сайт. В основному вони надходять від бота, який сканує сайт. Інженер ІТ-операцій Fasthosts Юен Макдональд надіслав мені лист і сказав:

Шановний justyy

Я не знаю, що саме ви робите зі своїм сайтом, але ви використовуєте понад 75% доступних процесів Apache. Це спричинило величезні проблеми для всіх інших клієнтів на веб-сервері.

На даний момент я перевіряю ваш сайт на безпеку.

Зверніть увагу, що ваш сайт містить 85 000, що становить 8,6 ГБ. У наших умовах зазначено, що всі файли у вашому веб-просторі мають бути частиною веб-сайту, тож чи всі 85 000 файлів є частиною сайту та доступні через сайт? Якщо ні, їх потрібно видалити, будь ласка.

Я також збираюся видалити 2 перейменовані папки htdocs, якщо ви не заперечуєте?

Якщо під час сканування ваш сайт спричинить таку саму проблему з продуктивністю, я знову відключу його, доки ви не зможете надати пояснення, чому він зв’язує приблизно 200 процесів Apache.

З найкращими побажаннями,

Потім я перевірив журнал apache2 і знайшов багато таких:

[Ср, 23 липня, 21:40:21 2014] [попередження] mod_fcgid: неможливо застосувати слот процесу для /var/www/fcgi/php54-cgi
[Ср, 23 липня, 21:40:22 2014] [попередження] mod_fcgid: можна Не можна застосувати слот процесу для /var/www/fcgi/php54-cgi
[Ср, 23 липня, 21:40:30 2014] [попередження] mod_fcgid: неможливо застосувати слот процесу для /var/www/fcgi/php54-cgi
[ Ср, 23 липня, 21:40:31 2014] [попередження] mod_fcgid: неможливо застосувати слот процесу для /var/www/fcgi/php54-cgi
[Ср, 23 липня, 21:40:31 2014] [попередження] mod_fcgid: можна t застосувати слот процесу для /var/www/fcgi/php54-cgi
[Ср, 23 липня, 21:40:31 2014] [попередження] mod_fcgid: неможливо застосувати слот процесу для /var/www/fcgi/php54-cgi

Очевидно, схоже, що 360spider досить сильно вдарив по сайту, і це, очевидно, впливає на інші веб-сайти на тому ж загальному хості, і тому швидкі хости змушені закрити мій сайт.

Проблема 360spider повернулася пізніше, тому їм довелося знову вимкнути мій сайт, доки я не підготую сценарій, який блокуватиме доступ до нього, оскільки це створює проблеми для інших користувачів сервера.

Мені шкода, що це створює проблеми для інших спільних хостів, але, на мою думку, було б краще заблокувати їх за допомогою вищого рівня (наприклад, параметрів apache). Тільки уявіть, будь-які інші веб-сайти можуть зіткнутися з такою ж проблемою. Раніше я оптимізував свій веб-сайт, щоб зменшити використання ЦП, кешуючи їх у статичні HTML-файли. але через досить велику кількість сторінок (близько 5000, як повідомляє google webmaster), деякі павуки можуть виявитися недостатньо кмітливими, щоб визначити дублікат. Павуки Google у порядку, тому що я можу налаштувати параметри, і вони підкоряються файлу robots.txt. Але ці злі павуки (наприклад, 360, youdao) насправді не дотримуються правил повзання. Єдиний спосіб заборонити їх — позначити їх у чорному списку (я точно можу це зробити). але для інших користувачів вони можуть зіткнутися з такою ж проблемою.

robots.txt

Роботи.txt — це текстовий файл у корені веб-сайту, який вказує пошуковим роботам, які каталоги індексувати, а які заборонені. Але не всі боти дотримуються «інструкцій». Ось правила, які я додаю, щоб сказати, що погані боти зникнуть.

# root User-agent: * Crawl-Delay: 1 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: 360Spider Disallow: / User-agent: YoudaoBot Disallow: / User-agent: sogou spider Disallow: / User-agent: YisouSpider Disallow: / User-agent: LinksCrawler Disallow: / User-agent: EasouSpider Disallow: /

.htaccess

Файл .htaccess є текстовим і прихованим файлом у кожному каталозі веб-сайту. Він використовується модулем перезапису apache mod_rewrite, щоб URL-адреси виглядали краще. Його також можна використовувати для керування цими ботами.

код PHP

З міркувань безпеки я також розмістив наступний код у index.php, який використовується для створення різних сторінок відповідно до параметрів URL-адреси. 99% сторінок веб-сайту створено за допомогою цього індексного файлу.

$agent=''; if (isset($_SERVER['HTTP_USER_AGENT'])) { $agent = $_SERVER['HTTP_USER_AGENT']; } define('BADBOTS','/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)/i'); if (preg_match(BADBOTS, $agent)) { die(); }

По суті, наведений вище PHP перевіряє рядок HTTP_USER_AGENT на наявність цих поганих ботів. Preg_match використовує регулярний вираз, а параметр /i вказує порівняння без урахування регістру.

Я також помітив, що у файлі журналу є досить багато таких записів:
119.188.91.121 – – [24/Jul/2014:22:39:51 +0100] “GET /?charset=big5&do=System.Online&lang=ch&page =25&per=10&skin=2011anniversary HTTP/1.0" 200 3919 ” https://steakovercooked.com/ … …" “~Mozilla/5.0 (сумісний; MSIE 9.0; Windows NT 6.1; Trident/5.0)~”

З HTTP_USER_AGENT ви зазвичай думаєте, що це не бот, але я думаю, що вони є. Тому ці боти дуже погані. Вони фактично дадуть будь-який USER_AGENT (вони можуть змінити це значення), і зазвичай вони з кількох IP-адрес (тому непросто ідентифікувати їх усіх за допомогою певних діапазонів IP-адрес).

Зупиніть розлючених ботів, таких як 360Spider, сканувати мій сайт

Здається, це працює після наведених вище методів.

здається, це працює, тому що в журналі apache я знайшов багато таких
[чт, 24 липня, 23:01:02 2014] [помилка] [клієнт 61.135.189.186] клієнту заборонено конфігурацією сервера: /home/linweb09/z/steakovercooked. com-1048918357/user/htdocs/
[Чет, 24 липня, 23:01:02 2014] [помилка] [клієнт 61.135.189.186] клієнт відхилено конфігурацією сервера: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs /помилка
[Чт, 24 липня, 23:01:08 2014] [помилка] [клієнт 61.135.189.186] клієнт відхилено конфігурацією сервера: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs/

І фастхост також задоволений: «Так, тепер виглядає набагато краще. тому я закрию цей квиток. Велике спасибі за вашу дію».

Однак це може бути не остаточним рішенням… Згодом я також переведу цей сайт на VPS, сервери балансування навантаження або виділений сервер, щоб його не вимкнули через цю дурну причину.

Днями я прочитав наступний абзац і не міг погодитися з цим: компанія веб-хостингу НЕ повинна робити нічого, щоб завдати шкоди репутації SEO вашого веб- сайту, не кажучи вже про те, щоб вивести весь ваш сайт з ладу без вашого дозволу. Fasthosts просто далеко за межу, і тому fasthost отримав так багато поганих відгуків (щось на кшталт сміття, лайна, геть на все життя).

Зупиніть розлючених ботів, таких як 360Spider, сканувати мій сайт

До речі, я використовую QuickHostUK, який просто найкращий. VPS працює просто чудово, і я вже переніс кілька сайтів.

Зупиніть розлючених ботів, таких як 360Spider, сканувати мій сайт

Джерело запису: helloacm.com

Цей веб -сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що з цим все гаразд, але ви можете відмовитися, якщо захочете. Прийняти Читати далі