{"id":232295,"date":"2023-01-20T16:50:00","date_gmt":"2023-01-20T13:50:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232295"},"modified":"2023-02-08T19:31:55","modified_gmt":"2023-02-08T16:31:55","slug":"detenga-a-angry-bots-como-360spider-para-rastrear-mi-sitio","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/es\/detenga-a-angry-bots-como-360spider-para-rastrear-mi-sitio\/","title":{"rendered":"Detenga a Angry Bots como 360Spider para rastrear mi sitio"},"content":{"rendered":"\n<p>Mi sitio web <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> ha estado en uno de los servidores de alojamiento compartido de fasthosts. Recientemente, mi sitio ha sido deshabilitado muchas veces debido a una gran cantidad de solicitudes a mi sitio. Estos provienen principalmente de bots que rastrean el sitio. El ingeniero de operaciones de TI de Fasthosts, Ewan MacDonald, me envi\u00f3 un correo y dijo:<\/p>\n<p>Querida justyy<\/p>\n<p>No estoy seguro de qu\u00e9 est\u00e1 haciendo exactamente con su sitio, pero ha consumido m\u00e1s del 75 % de los procesos de Apache disponibles. Esto ha causado problemas masivos para todos los dem\u00e1s clientes en el servidor web.<\/p>\n<p>Estoy ejecutando un an\u00e1lisis de seguridad en su sitio en este momento.<\/p>\n<p>Tenga en cuenta que su sitio contiene 85.000 que suman 8,6 GB. Nuestros t\u00e9rminos establecen que todos los archivos en su espacio web deben ser parte del sitio web, entonces, \u00bflos 85,000 archivos son parte del sitio y accesibles a trav\u00e9s del sitio? Si no, necesitan ser eliminados por favor.<\/p>\n<p>Tambi\u00e9n voy a eliminar las 2 carpetas htdocs renombradas a menos que se oponga.<\/p>\n<p>Si su sitio causa el mismo problema de rendimiento mientras se ejecuta el an\u00e1lisis, lo desconectar\u00e9 nuevamente hasta que pueda proporcionar una explicaci\u00f3n de por qu\u00e9 est\u00e1 bloqueando aproximadamente 200 procesos de Apache.<\/p>\n<p>Saludos,<\/p>\n<p>Luego, verifiqu\u00e9 el registro de <strong>apache2<\/strong> y encontr\u00e9 muchos de estos:<\/p>\n<p>[Mi\u00e9 23 de julio 21:40:21 2014] [advertencia] mod_fcgid: no se puede aplicar la ranura de proceso para \/var\/www\/fcgi\/php54-cgi<br \/>\n[Mi\u00e9 23 de julio 21:40:22 2014] [advertencia] mod_fcgid: puede &#8216;t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:30 2014] [warn] mod_fcgid: can&#8217;t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Mi\u00e9rcoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: no se puede aplicar el espacio de proceso para \/var\/www\/fcgi\/php54-cgi<br \/>\n[Mi\u00e9rcoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: can&#8217; t aplicar la ranura de proceso para \/var\/www\/fcgi\/php54-cgi<br \/>\n[mi\u00e9rcoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: no se puede aplicar la ranura de proceso para \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Aparentemente, parece que 360spider estaba afectando bastante al sitio y obviamente afecta a otros sitios web en el mismo host compartido, y es por eso que los hosts r\u00e1pidos tienen que eliminar mi sitio.<\/p>\n<p>El problema de 360spider ha regresado m\u00e1s tarde, por lo que han tenido que deshabilitar mi sitio nuevamente hasta que tenga un script listo para bloquear su acceso, ya que est\u00e1 causando problemas a otros usuarios del servidor.<\/p>\n<p>Lamento que esto cause problemas a otros hosts compartidos, pero en mi opini\u00f3n, ser\u00eda mejor bloquearlos usando un nivel superior (por ejemplo, la configuraci\u00f3n de Apache). Imag\u00ednese, cualquier otro sitio web puede enfrentar el mismo problema. He optimizado mi sitio web antes para reducir el uso de la CPU almacen\u00e1ndolos en cach\u00e9 en HTML est\u00e1ticos. pero debido a una gran cantidad de p\u00e1ginas (alrededor de 5000 reportadas en google webmaster), algunas ara\u00f1as pueden no ser lo suficientemente inteligentes como para descubrir el duplicado. Las ara\u00f1as de Google est\u00e1n bien porque puedo configurar los par\u00e1metros y obedecen al archivo robots.txt. Pero para estas ara\u00f1as enojadas (por ejemplo, 360, youdao), en realidad no obedecen las reglas de rastreo. La \u00fanica forma de prohibirlas es marcarlas en la lista negra (puedo hacerlo con seguridad). pero para otros usuarios, pueden enfrentar el mismo problema.<\/p>\n<h2>robots.txt<\/h2>\n<p>El robots.txt es un archivo de texto bajo la ra\u00edz del sitio web que indica a los robots de b\u00fasqueda qu\u00e9 directorios indexar y cu\u00e1les no est\u00e1n permitidos. Pero no todos los bots siguen las &#8216;instrucciones&#8217;. Estas son las reglas que agrego para decirles a estos bots malos que desaparezcan.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>El archivo <strong>.htaccess<\/strong> es un archivo de texto y oculto en el directorio de cada sitio web. Lo utiliza el m\u00f3dulo de reescritura de apache <strong>mod_rewrite<\/strong> para hacer que las URL se vean mejor. Tambi\u00e9n se puede utilizar para controlar estos bots.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>codigo php<\/h2>\n<p>Como precauci\u00f3n de seguridad, tambi\u00e9n he puesto el siguiente c\u00f3digo en <strong>index.php<\/strong> que se usa para generar diferentes p\u00e1ginas seg\u00fan los par\u00e1metros de la URL. El 99% de las p\u00e1ginas del sitio web se generan utilizando este archivo de \u00edndice.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>B\u00e1sicamente, lo que hace el PHP anterior es verificar la cadena <strong>HTTP_USER_AGENT<\/strong> contra estos bots malos. Preg_match usa <strong>expresiones<\/strong> regulares y la opci\u00f3n <strong>\/i<\/strong> especifica comparaciones que no distinguen entre may\u00fasculas y min\u00fasculas.<\/p>\n<p>Tambi\u00e9n he notado que en el archivo de registro hay bastantes entradas como esta:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] \u00abGET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011aniversario HTTP\/1.0&quot; 200 3919 \u00bb <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; \u00ab~Mozilla\/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~\u00bb<\/p>\n<p>Desde HTTP_USER_AGENT, normalmente piensas que no es un bot, pero creo que lo son. As\u00ed que estos bots son muy malos. En realidad, dar\u00e1n cualquier USER_AGENT (pueden cambiar este valor) y generalmente son de varias IP (por lo que no es f\u00e1cil identificarlos usando rangos de IP espec\u00edficos).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Detenga a Angry Bots como 360Spider para rastrear mi sitio\"><\/a><\/p>\n<p>Parece funcionar despu\u00e9s de los m\u00e9todos anteriores.<\/p>\n<p>parece funcionar, porque en el registro de apache, encuentro muchos de estos<br \/>\n[jueves 24 de julio 23:01:02 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuraci\u00f3n del servidor: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[jue 24 de julio 23:01:02 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuraci\u00f3n del servidor: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs \/error<br \/>\n[jue 24 de julio 23:01:08 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuraci\u00f3n del servidor: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>Y fasthosts tambi\u00e9n est\u00e1 feliz: \u00abS\u00ed, se ve mucho mejor ahora. as\u00ed que cerrar\u00e9 este ticket. Muchas gracias por su acci\u00f3n.\u00bb<\/p>\n<p>Sin embargo, esto podr\u00eda no ser una soluci\u00f3n final&#8230; Eventualmente, tambi\u00e9n mover\u00e9 este sitio a <a href=\"https:\/\/wordpress.mediadoma.com\/es\/cloud-vps-es-mejor-que-el-alojamiento-vps-tradicional\/\" title=\"VPS\">VPS<\/a>, servidores de balanceo de carga o servidor dedicado para que no sea eliminado por esta est\u00fapida raz\u00f3n.<\/p>\n<p>El otro d\u00eda, le\u00ed el siguiente p\u00e1rrafo y no podr\u00eda estar m\u00e1s de acuerdo con esto: la empresa de alojamiento web <strong>NO<\/strong> debe hacer nada para da\u00f1ar la reputaci\u00f3n de <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO<\/a> de sus sitios web, sin mencionar, derribar todo su sitio sin su permiso. Fasthosts est\u00e1 muy por encima de la l\u00ednea y es por eso que fasthosts recibi\u00f3 tantas cr\u00edticas negativas (algo as\u00ed como basura, basura, escapada para toda la vida).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Detenga a Angry Bots como 360Spider para rastrear mi sitio\"><\/a><\/p>\n<p>Por cierto, estoy usando <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a>, que es simplemente el mejor. El VPS funciona muy bien y ya he movido un par de sitios.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Detenga a Angry Bots como 360Spider para rastrear mi sitio\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">Fuente de grabaci\u00f3n:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Detenga a Angry Bots como 360Spider para rastrear mi sitio<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[716,1027,840,861],"tags":[1172],"class_list":["post-232295","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-desarrollador","category-la-seguridad","category-tutoriales","category-wordpress-2","tag-affiai-es"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/posts\/232295","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/comments?post=232295"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/posts\/232295\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/media?parent=232295"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/categories?post=232295"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/es\/wp-json\/wp\/v2\/tags?post=232295"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}