✅ Notícias, temas e plug-ins da WEB e do WordPress. Aqui compartilhamos dicas e as melhores soluções para sites.

Parar bots irritados como 360Spider para rastrear meu site

6

Meu site steakovercooked.com esteve em um dos servidores de hospedagem compartilhada fasthosts. Recentemente, meu site foi desativado muitas vezes devido a um grande número de solicitações ao meu site. Estes vêm principalmente do rastreamento de bots no site. O engenheiro de operações de TI da Fasthosts, Ewan MacDonald, me enviou um e-mail e disse:

Caro justyy

Não tenho certeza do que você está fazendo com seu site exatamente, mas você está consumindo mais de 75% dos processos disponíveis do Apache. Isso causou grandes problemas para todos os outros clientes no servidor web.

Estou executando uma verificação de segurança no seu site no momento.

Observe que seu site contém 85.000, totalizando 8,6 GB. Nossos termos afirmam que todos os arquivos em seu espaço na web devem fazer parte do site, então todos os 85.000 arquivos fazem parte do site e podem ser acessados ​​por meio do site? Se não, eles precisam ser removidos, por favor.

Eu também vou remover as 2 pastas htdocs renomeadas, a menos que você se oponha?

Se o seu site causar o mesmo problema de desempenho enquanto a verificação estiver em execução, eu o colocarei offline novamente até que você possa fornecer uma explicação do motivo pelo qual ele está amarrando aproximadamente 200 processos do Apache.

Atenciosamente,

Então, verifiquei o log do apache2 e encontrei muitos destes:

[quarta 23 de julho 21:40:21 2014] [aviso] mod_fcgid: não é possível aplicar slot de processo para /var/www/fcgi/php54-cgi
[quarta 23 de julho 21:40:22 2014] [aviso] mod_fcgid: pode não aplica slot de processo para /var/www/fcgi/php54-cgi
[quarta 23 de julho 21:40:30 2014] [aviso] mod_fcgid: não é possível aplicar slot de processo para /var/www/fcgi/php54-cgi
[ Qua 23 de julho 21:40:31 2014] [aviso] mod_fcgid: não é possível aplicar slot de processo para /var/www/fcgi/php54-cgi
[quarta 23 de julho 21:40:31 2014] [aviso] mod_fcgid: pode’ t aplicar slot de processo para /var/www/fcgi/php54-cgi
[Wed Jul 23 21:40:31 2014] [aviso] mod_fcgid: não é possível aplicar slot de processo para /var/www/fcgi/php54-cgi

Aparentemente, parece que o 360spider estava atingindo o site com bastante força e obviamente afeta outros sites no mesmo host compartilhado, e é por isso que os fasthosts precisam derrubar meu site.

O problema do 360spider voltou mais tarde, então eles tiveram que desabilitar meu site novamente até que eu tenha um script pronto para bloquear seu acesso, pois está causando problemas para outros usuários do servidor.

Lamento que isso cause problemas a outros hosts de compartilhamento, mas na minha opinião pode ser melhor bloqueá-los usando um nível mais alto (por exemplo, configurações do apache). Imagine, quaisquer outros sites podem enfrentar o mesmo problema. Eu otimizei meu site antes para reduzir o uso da CPU, armazenando-os em HTMLs estáticos. mas devido a um grande número de páginas (cerca de 5000 relatadas no google webmaster), algumas aranhas podem não ser inteligentes o suficiente para descobrir a duplicata. Os spiders do Google funcionam bem porque eu posso configurar os parâmetros e eles obedecem ao arquivo robots.txt. Mas para essas aranhas raivosas (por exemplo, 360, youdao), elas não obedecem às regras de rastreamento. A única maneira de bani-las é marcá-las na lista negra (eu posso fazer isso com certeza). mas para outros usuários, eles podem enfrentar o mesmo problema.

robots.txt

O robots.txt é um arquivo de texto sob a raiz do site que direciona os bots de busca para quais diretórios indexar e quais não são permitidos. Mas nem todos os bots seguem as ‘instruções’. Aqui estão as regras que eu adiciono para dizer que esses bots ruins vão embora.

# root User-agent: * Crawl-Delay: 1 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: 360Spider Disallow: / User-agent: YoudaoBot Disallow: / User-agent: sogou spider Disallow: / User-agent: YisouSpider Disallow: / User-agent: LinksCrawler Disallow: / User-agent: EasouSpider Disallow: /

.htaccess

O arquivo .htaccess é um arquivo de texto e oculto em cada diretório do site. Ele é usado pelo módulo de reescrita do apache mod_rewrite para tornar as URLs mais bonitas. Também pode ser usado para controlar esses bots.

código PHP

Como precaução de segurança, também coloquei o seguinte código no index.php que é usado para gerar páginas diferentes de acordo com os parâmetros de URL. 99% das páginas do site são geradas usando este arquivo de índice.

$agent=''; if (isset($_SERVER['HTTP_USER_AGENT'])) { $agent = $_SERVER['HTTP_USER_AGENT']; } define('BADBOTS','/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)/i'); if (preg_match(BADBOTS, $agent)) { die(); }

Basicamente, o que o PHP acima faz é verificar a string HTTP_USER_AGENT contra esses bots ruins. O preg_match usa expressão regular e a opção /i especifica comparações que não diferenciam maiúsculas de minúsculas.

Eu também notei no arquivo de log, existem muitas entradas como esta:
119.188.91.121 – – [24/Jul/2014:22:39:51 +0100] “GET /?charset=big5&do=System.Online&lang=ch&page =25&per=10&skin=2011aniversário HTTP/1.0" 200 3919 ” https://steakovercooked.com/ … …" “~Mozilla/5.0 (compatível; MSIE 9.0; Windows NT 6.1; Trident/5.0)~”

Do HTTP_USER_AGENT você normalmente pensa que não é um bot, mas acho que são. Então esses bots são muito ruins. Eles realmente fornecerão qualquer USER_AGENT (eles podem alterar esse valor) e geralmente são de vários IPs (portanto, não é fácil identificar todos eles usando intervalos de IP específicos).

Parar bots irritados como 360Spider para rastrear meu site

Parece funcionar após os métodos acima.

parece funcionar, porque no log do apache, encontro muitos desses
[Thu Jul 24 23:01:02 2014] [erro] [cliente 61.135.189.186] cliente negado pela configuração do servidor: /home/linweb09/z/steakovercooked. com-1048918357/user/htdocs/
[Qui 24 de julho 23:01:02 2014] [erro] [cliente 61.135.189.186] cliente negado pela configuração do servidor: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs /error
[qui 24 de julho 23:01:08 2014] [erro] [cliente 61.135.189.186] cliente negado pela configuração do servidor: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs/

E os fasthosts também estão felizes: “Sim, está muito melhor agora. então vou fechar este ticket. Muito obrigado por sua ação.”

No entanto, isso pode não ser uma solução final… Eventualmente, também vou mover este site para VPS, servidores de balanceamento de carga ou servidor dedicado para que ele não seja retirado por causa desse motivo estúpido.

Outro dia, li o parágrafo a seguir e não poderia concordar mais com isso: A empresa de hospedagem na web NÃO deve fazer nada para prejudicar a reputação de SEO de seus sites, para não mencionar, derrubar todo o site sem suas permissões. O fasthosts está muito além da linha e é por isso que o fasthosts recebeu tantas críticas ruins (algo como lixo, porcaria, fugir para toda a vida).

Parar bots irritados como 360Spider para rastrear meu site

A propósito, estou usando o QuickHostUK, que é simplesmente o melhor. O VPS funciona muito bem e já mudei alguns sites.

Parar bots irritados como 360Spider para rastrear meu site

Fonte de gravação: helloacm.com

Este site usa cookies para melhorar sua experiência. Presumiremos que você está ok com isso, mas você pode cancelar, se desejar. Aceitar Consulte Mais informação