{"id":232514,"date":"2023-01-20T16:30:00","date_gmt":"2023-01-20T13:30:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232514"},"modified":"2023-02-08T19:18:41","modified_gmt":"2023-02-08T16:18:41","slug":"parar-bots-irritados-como-360spider-para-rastrear-meu-site","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/pt-pt\/parar-bots-irritados-como-360spider-para-rastrear-meu-site\/","title":{"rendered":"Parar bots irritados como 360Spider para rastrear meu site"},"content":{"rendered":"\n<p>Meu site <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> esteve em um dos servidores de hospedagem compartilhada fasthosts. Recentemente, meu site foi desativado muitas vezes devido a um grande n\u00famero de solicita\u00e7\u00f5es ao meu site. Estes v\u00eam principalmente do rastreamento de bots no site. O engenheiro de opera\u00e7\u00f5es de TI da Fasthosts, Ewan MacDonald, me enviou um e-mail e disse:<\/p>\n<p>Caro justyy<\/p>\n<p>N\u00e3o tenho certeza do que voc\u00ea est\u00e1 fazendo com seu site exatamente, mas voc\u00ea est\u00e1 consumindo mais de 75% dos processos dispon\u00edveis do Apache. Isso causou grandes problemas para todos os outros clientes no servidor web.<\/p>\n<p>Estou executando uma verifica\u00e7\u00e3o de seguran\u00e7a no seu site no momento.<\/p>\n<p>Observe que seu site cont\u00e9m 85.000, totalizando 8,6 GB. Nossos termos afirmam que todos os arquivos em seu espa\u00e7o na web devem fazer parte do site, ent\u00e3o todos os 85.000 arquivos fazem parte do site e podem ser acessados \u200b\u200bpor meio do site? Se n\u00e3o, eles precisam ser removidos, por favor.<\/p>\n<p>Eu tamb\u00e9m vou remover as 2 pastas htdocs renomeadas, a menos que voc\u00ea se oponha?<\/p>\n<p>Se o seu site causar o mesmo problema de desempenho enquanto a verifica\u00e7\u00e3o estiver em execu\u00e7\u00e3o, eu o colocarei offline novamente at\u00e9 que voc\u00ea possa fornecer uma explica\u00e7\u00e3o do motivo pelo qual ele est\u00e1 amarrando aproximadamente 200 processos do Apache.<\/p>\n<p>Atenciosamente,<\/p>\n<p>Ent\u00e3o, verifiquei o log do <strong>apache2<\/strong> e encontrei muitos destes:<\/p>\n<p>[quarta 23 de julho 21:40:21 2014] [aviso] mod_fcgid: n\u00e3o \u00e9 poss\u00edvel aplicar slot de processo para \/var\/www\/fcgi\/php54-cgi<br \/>\n[quarta 23 de julho 21:40:22 2014] [aviso] mod_fcgid: pode n\u00e3o aplica slot de processo para \/var\/www\/fcgi\/php54-cgi<br \/>\n[quarta 23 de julho 21:40:30 2014] [aviso] mod_fcgid: n\u00e3o \u00e9 poss\u00edvel aplicar slot de processo para \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Qua 23 de julho 21:40:31 2014] [aviso] mod_fcgid: n\u00e3o \u00e9 poss\u00edvel aplicar slot de processo para \/var\/www\/fcgi\/php54-cgi<br \/>\n[quarta 23 de julho 21:40:31 2014] [aviso] mod_fcgid: pode&#8217; t aplicar slot de processo para \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:31 2014] [aviso] mod_fcgid: n\u00e3o \u00e9 poss\u00edvel aplicar slot de processo para \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Aparentemente, parece que o 360spider estava atingindo o site com bastante for\u00e7a e obviamente afeta outros sites no mesmo host compartilhado, e \u00e9 por isso que os fasthosts precisam derrubar meu site.<\/p>\n<p>O problema do 360spider voltou mais tarde, ent\u00e3o eles tiveram que desabilitar meu site novamente at\u00e9 que eu tenha um script pronto para bloquear seu acesso, pois est\u00e1 causando problemas para outros usu\u00e1rios do servidor.<\/p>\n<p>Lamento que isso cause problemas a outros hosts de compartilhamento, mas na minha opini\u00e3o pode ser melhor bloque\u00e1-los usando um n\u00edvel mais alto (por exemplo, configura\u00e7\u00f5es do apache). Imagine, quaisquer outros sites podem enfrentar o mesmo problema. Eu otimizei meu site antes para reduzir o uso da CPU, armazenando-os em HTMLs est\u00e1ticos. mas devido a um grande n\u00famero de p\u00e1ginas (cerca de 5000 relatadas no google webmaster), algumas aranhas podem n\u00e3o ser inteligentes o suficiente para descobrir a duplicata. Os spiders do Google funcionam bem porque eu posso configurar os par\u00e2metros e eles obedecem ao arquivo robots.txt. Mas para essas aranhas raivosas (por exemplo, 360, youdao), elas n\u00e3o obedecem \u00e0s regras de rastreamento. A \u00fanica maneira de bani-las \u00e9 marc\u00e1-las na lista negra (eu posso fazer isso com certeza). mas para outros usu\u00e1rios, eles podem enfrentar o mesmo problema.<\/p>\n<h2>robots.txt<\/h2>\n<p>O robots.txt \u00e9 um arquivo de texto sob a raiz do site que direciona os bots de busca para quais diret\u00f3rios indexar e quais n\u00e3o s\u00e3o permitidos. Mas nem todos os bots seguem as &#8216;instru\u00e7\u00f5es&#8217;. Aqui est\u00e3o as regras que eu adiciono para dizer que esses bots ruins v\u00e3o embora.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>O arquivo <strong>.htaccess<\/strong> \u00e9 um arquivo de texto e oculto em cada diret\u00f3rio do site. Ele \u00e9 usado pelo m\u00f3dulo de reescrita do apache <strong>mod_rewrite<\/strong> para tornar as URLs mais bonitas. Tamb\u00e9m pode ser usado para controlar esses bots.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>c\u00f3digo PHP<\/h2>\n<p>Como precau\u00e7\u00e3o de seguran\u00e7a, tamb\u00e9m coloquei o seguinte c\u00f3digo no <strong>index.php<\/strong> que \u00e9 usado para gerar p\u00e1ginas diferentes de acordo com os par\u00e2metros de URL. 99% das p\u00e1ginas do site s\u00e3o geradas usando este arquivo de \u00edndice.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>Basicamente, o que o PHP acima faz \u00e9 verificar a string <strong>HTTP_USER_AGENT<\/strong> contra esses bots ruins. O <strong>preg_match<\/strong> usa express\u00e3o regular e a op\u00e7\u00e3o <strong>\/i<\/strong> especifica compara\u00e7\u00f5es que n\u00e3o diferenciam mai\u00fasculas de min\u00fasculas.<\/p>\n<p>Eu tamb\u00e9m notei no arquivo de log, existem muitas entradas como esta:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] &#8220;GET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011anivers\u00e1rio HTTP\/1.0&quot; 200 3919 &#8221; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; &#8220;~Mozilla\/5.0 (compat\u00edvel; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~&#8221;<\/p>\n<p>Do HTTP_USER_AGENT voc\u00ea normalmente pensa que n\u00e3o \u00e9 um bot, mas acho que s\u00e3o. Ent\u00e3o esses bots s\u00e3o muito ruins. Eles realmente fornecer\u00e3o qualquer USER_AGENT (eles podem alterar esse valor) e geralmente s\u00e3o de v\u00e1rios IPs (portanto, n\u00e3o \u00e9 f\u00e1cil identificar todos eles usando intervalos de IP espec\u00edficos).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Parar bots irritados como 360Spider para rastrear meu site\"><\/a><\/p>\n<p>Parece funcionar ap\u00f3s os m\u00e9todos acima.<\/p>\n<p>parece funcionar, porque no log do apache, encontro muitos desses<br \/>\n[Thu Jul 24 23:01:02 2014] [erro] [cliente 61.135.189.186] cliente negado pela configura\u00e7\u00e3o do servidor: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[Qui 24 de julho 23:01:02 2014] [erro] [cliente 61.135.189.186] cliente negado pela configura\u00e7\u00e3o do servidor: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs \/error<br \/>\n[qui 24 de julho 23:01:08 2014] [erro] [cliente 61.135.189.186] cliente negado pela configura\u00e7\u00e3o do servidor: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>E os fasthosts tamb\u00e9m est\u00e3o felizes: &#8220;Sim, est\u00e1 muito melhor agora. ent\u00e3o vou fechar este ticket. Muito obrigado por sua a\u00e7\u00e3o.&#8221;<\/p>\n<p>No entanto, isso pode n\u00e3o ser uma solu\u00e7\u00e3o final\u2026 Eventualmente, tamb\u00e9m vou mover este site para <a href=\"https:\/\/wordpress.mediadoma.com\/pt-pt\/cloud-vps-e-melhor-que-a-hospedagem-vps-tradicional\/\" title=\"VPS\">VPS<\/a>, servidores de balanceamento de carga ou servidor dedicado para que ele n\u00e3o seja retirado por causa desse motivo est\u00fapido.<\/p>\n<p>Outro dia, li o par\u00e1grafo a seguir e n\u00e3o poderia concordar mais com isso: A empresa de hospedagem na web <strong>N\u00c3O<\/strong> deve fazer nada para prejudicar a reputa\u00e7\u00e3o de <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO<\/a> de seus sites, para n\u00e3o mencionar, derrubar todo o site sem suas permiss\u00f5es. O fasthosts est\u00e1 muito al\u00e9m da linha e \u00e9 por isso que o fasthosts recebeu tantas cr\u00edticas ruins (algo como lixo, porcaria, fugir para toda a vida).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Parar bots irritados como 360Spider para rastrear meu site\"><\/a><\/p>\n<p>A prop\u00f3sito, estou usando <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">o QuickHostUK<\/a>, que \u00e9 simplesmente o melhor. O VPS funciona muito bem e j\u00e1 mudei alguns sites.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Parar bots irritados como 360Spider para rastrear meu site\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">Fonte de grava\u00e7\u00e3o:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Parar bots irritados como 360Spider para rastrear meu site<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[722,1033,846,867],"tags":[1170],"class_list":["post-232514","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-desenvolvedor","category-seguranca","category-tutoriais","category-wordpress-8","tag-affiai-pt-pt"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/posts\/232514","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/comments?post=232514"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/posts\/232514\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/media?parent=232514"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/categories?post=232514"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pt-pt\/wp-json\/wp\/v2\/tags?post=232514"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}