✅ Новости WEB и WordPress, темы, плагины. Здесь мы делимся советами и лучшими решениями для веб-сайтов.

Не позволяйте разъяренным ботам, таким как 360Spider, сканировать мой сайт

15

Мой веб-сайт steakovercooked.com находился на одном из серверов виртуального хостинга fasthosts. В последнее время мой сайт много раз отключался из-за огромного количества обращений к моему сайту. В основном это происходит из-за того, что бот сканирует сайт. Инженер по ИТ-операциям Fasthosts Эван Макдональд написал мне письмо и сказал:

Уважаемый Юстий

Я не уверен, что именно вы делаете со своим сайтом, но вы потребляете более 75% доступных процессов Apache. Это вызвало огромные проблемы для всех других клиентов на веб-сервере.

В данный момент я провожу проверку безопасности вашего сайта.

Обратите внимание, что на вашем сайте содержится 85 000 файлов размером 8,6 ГБ. Наши условия гласят, что все файлы в вашем веб-пространстве должны быть частью веб-сайта. Все ли 85 000 файлов являются частью сайта и доступны через него? Если нет, то их нужно удалить, пожалуйста.

Я также собираюсь удалить две переименованные папки htdocs, если вы не возражаете?

Если ваш сайт вызывает ту же проблему с производительностью во время сканирования, я снова отключу его, пока вы не объясните, почему он связывает примерно 200 процессов Apache.

С наилучшими пожеланиями,

Затем я проверил журнал apache2 и нашел много таких:

[Среда, 23 июля, 21:40:21 2014] [предупреждение] mod_fcgid: невозможно применить слот процесса для /var/www/fcgi/php54-cgi
[Среда, 23 июля, 21:40:22 2014] [предупреждение] mod_fcgid: можно не применять слот процесса для /var/www/fcgi/php54-cgi
[23 июля 21:40:30 2014] [предупреждение] mod_fcgid: невозможно применить слот процесса для /var/www/fcgi/php54-cgi
[ Среда, 23 июля, 21:40:31 2014] [предупреждение] mod_fcgid: невозможно применить слот процесса для /var/www/fcgi/php54-cgi
[Среда, 23 июля, 21:40:31 2014] [предупреждение] mod_fcgid: может’ t применить слот процесса для /var/www/fcgi/php54-cgi
[23 июля 21:40:31 2014] [предупреждение] mod_fcgid: невозможно применить слот процесса для /var/www/fcgi/php54-cgi

По-видимому, похоже, что 360spider довольно сильно ударил по сайту, и это, очевидно, влияет на другие сайты на том же виртуальном хосте, и поэтому фаст-хосты должны отключить мой сайт.

Проблема с 360spider вернулась позже, поэтому им пришлось снова отключить мой сайт, пока у меня не будет готовый скрипт, чтобы заблокировать его доступ, поскольку он вызывает проблемы у других пользователей сервера.

Мне жаль, что это создает проблемы для других общих хостов, но, по моему мнению, было бы лучше заблокировать их, используя более высокий уровень (например, настройки apache). Только представьте, с такой же проблемой могут столкнуться любые другие сайты. Раньше я оптимизировал свой веб-сайт, чтобы уменьшить использование ЦП, кэшируя их в статические HTML-файлы. но из-за большого количества страниц (около 5000, зарегистрированных в веб-мастере Google), некоторые пауки могут быть недостаточно умны, чтобы вычислить дубликат. Пауки Google хороши, потому что я могу настроить параметры, и они подчиняются файлу robots.txt. Но для этих злобных пауков (например, 360, youdao) они на самом деле не совсем соблюдают правила сканирования. Единственный способ их забанить – это пометить их в черный список (я могу это сделать точно). но для других пользователей они могут столкнуться с той же проблемой.

robots.txt

robots.txt — это текстовый файл в корневом каталоге веб-сайта, который указывает поисковым роботам, какие каталоги индексировать, а какие нет. Но не все боты следуют «инструкциям». Вот правила, которые я добавляю, чтобы эти плохие боты ушли.

# root User-agent: * Crawl-Delay: 1 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: 360Spider Disallow: / User-agent: YoudaoBot Disallow: / User-agent: sogou spider Disallow: / User-agent: YisouSpider Disallow: / User-agent: LinksCrawler Disallow: / User-agent: EasouSpider Disallow: /

.htaccess

Файл .htaccess — это текстовый и скрытый файл в каждом каталоге веб-сайта. Он используется модулем перезаписи apache mod_rewrite, чтобы URL-адреса выглядели лучше. Его также можно использовать для управления этими ботами.

PHP-код

В качестве меры предосторожности я также поместил следующий код в index.php, который используется для создания разных страниц в соответствии с параметрами URL. 99% страниц веб-сайта создаются с использованием этого индексного файла.

$agent=''; if (isset($_SERVER['HTTP_USER_AGENT'])) { $agent = $_SERVER['HTTP_USER_AGENT']; } define('BADBOTS','/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)/i'); if (preg_match(BADBOTS, $agent)) { die(); }

По сути, приведенный выше PHP проверяет строку HTTP_USER_AGENT на наличие этих плохих ботов. Preg_match использует регулярное выражение, а параметр /i указывает сравнение без учета регистра.

Я также заметил в файле журнала довольно много таких записей:
119.188.91.121 — — [24/Jul/2014:22:39:51 +0100] «GET /?charset=big5&do=System.Online&lang=ch&page =25&per=10&skin=2011anniversary HTTP/1.0" 200 3919 " https://steakovercooked.com/ … …" "~Mozilla/5.0 (совместимо; MSIE 9.0; Windows NT 6.1; Trident/5.0)~"

Из HTTP_USER_AGENT вы обычно думаете, что это не бот, но я думаю, что это так. Так что эти боты очень плохие. На самом деле они будут давать любой USER_AGENT (они могут изменить это значение), и обычно они с нескольких IP-адресов (поэтому нелегко идентифицировать их всех, используя определенные диапазоны IP-адресов).

Не позволяйте разъяренным ботам, таким как 360Spider, сканировать мой сайт

Кажется, работает после вышеуказанных методов.

кажется, работает, потому что в журнале apache я нахожу много таких
[Четверг, 24 июля 23:01:02 2014] [ошибка] [клиент 61.135.189.186] клиент, которому отказано в конфигурации сервера: /home/linweb09/z/steakovercooked. com-1048918357/user/htdocs/
[Чт, 24 июля 23:01:02 2014] [ошибка] [клиент 61.135.189.186] клиент отклонен конфигурацией сервера: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs /error
[Чт, 24 июля 23:01:08 2014] [ошибка] [клиент 61.135.189.186] клиент отклонен конфигурацией сервера: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs/

И фастхосты тоже довольны: «Да, теперь все выглядит намного лучше. так что я закрою этот билет. Большое спасибо за ваш поступок».

Однако это может быть не окончательное решение… В конце концов, я также перенесу этот сайт на VPS, серверы балансировки нагрузки или выделенный сервер, чтобы его не отключили по этой глупой причине.

На днях я прочитал следующий абзац и не могу не согласиться с этим: компания, предоставляющая веб-хостинг, НЕ должна делать ничего, чтобы повредить репутации вашего веб-сайта в SEO, не говоря уже о том, чтобы вывести из строя весь ваш сайт без вашего разрешения. Fasthosts просто далеко за чертой, и именно поэтому fasthosts получил так много плохих отзывов (что-то вроде мусора, дерьма, убирайся на всю жизнь).

Не позволяйте разъяренным ботам, таким как 360Spider, сканировать мой сайт

Кстати, я использую QuickHostUK, который просто лучший. VPS работает просто отлично, и я уже перенес пару сайтов.

Не позволяйте разъяренным ботам, таким как 360Spider, сканировать мой сайт

Источник записи: helloacm.com

Этот веб-сайт использует файлы cookie для улучшения вашего опыта. Мы предполагаем, что вы согласны с этим, но вы можете отказаться, если хотите. Принимаю Подробнее