✅ Noticias, temas, complementos de WEB y WordPress. Aquí compartimos consejos y las mejores soluciones para sitios web.

Detenga a Angry Bots como 360Spider para rastrear mi sitio

12

Mi sitio web steakovercooked.com ha estado en uno de los servidores de alojamiento compartido de fasthosts. Recientemente, mi sitio ha sido deshabilitado muchas veces debido a una gran cantidad de solicitudes a mi sitio. Estos provienen principalmente de bots que rastrean el sitio. El ingeniero de operaciones de TI de Fasthosts, Ewan MacDonald, me envió un correo y dijo:

Querida justyy

No estoy seguro de qué está haciendo exactamente con su sitio, pero ha consumido más del 75 % de los procesos de Apache disponibles. Esto ha causado problemas masivos para todos los demás clientes en el servidor web.

Estoy ejecutando un análisis de seguridad en su sitio en este momento.

Tenga en cuenta que su sitio contiene 85.000 que suman 8,6 GB. Nuestros términos establecen que todos los archivos en su espacio web deben ser parte del sitio web, entonces, ¿los 85,000 archivos son parte del sitio y accesibles a través del sitio? Si no, necesitan ser eliminados por favor.

También voy a eliminar las 2 carpetas htdocs renombradas a menos que se oponga.

Si su sitio causa el mismo problema de rendimiento mientras se ejecuta el análisis, lo desconectaré nuevamente hasta que pueda proporcionar una explicación de por qué está bloqueando aproximadamente 200 procesos de Apache.

Saludos,

Luego, verifiqué el registro de apache2 y encontré muchos de estos:

[Mié 23 de julio 21:40:21 2014] [advertencia] mod_fcgid: no se puede aplicar la ranura de proceso para /var/www/fcgi/php54-cgi
[Mié 23 de julio 21:40:22 2014] [advertencia] mod_fcgid: puede ‘t apply process slot for /var/www/fcgi/php54-cgi
[Wed Jul 23 21:40:30 2014] [warn] mod_fcgid: can’t apply process slot for /var/www/fcgi/php54-cgi
[ Miércoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: no se puede aplicar el espacio de proceso para /var/www/fcgi/php54-cgi
[Miércoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: can’ t aplicar la ranura de proceso para /var/www/fcgi/php54-cgi
[miércoles 23 de julio 21:40:31 2014] [advertencia] mod_fcgid: no se puede aplicar la ranura de proceso para /var/www/fcgi/php54-cgi

Aparentemente, parece que 360spider estaba afectando bastante al sitio y obviamente afecta a otros sitios web en el mismo host compartido, y es por eso que los hosts rápidos tienen que eliminar mi sitio.

El problema de 360spider ha regresado más tarde, por lo que han tenido que deshabilitar mi sitio nuevamente hasta que tenga un script listo para bloquear su acceso, ya que está causando problemas a otros usuarios del servidor.

Lamento que esto cause problemas a otros hosts compartidos, pero en mi opinión, sería mejor bloquearlos usando un nivel superior (por ejemplo, la configuración de Apache). Imagínese, cualquier otro sitio web puede enfrentar el mismo problema. He optimizado mi sitio web antes para reducir el uso de la CPU almacenándolos en caché en HTML estáticos. pero debido a una gran cantidad de páginas (alrededor de 5000 reportadas en google webmaster), algunas arañas pueden no ser lo suficientemente inteligentes como para descubrir el duplicado. Las arañas de Google están bien porque puedo configurar los parámetros y obedecen al archivo robots.txt. Pero para estas arañas enojadas (por ejemplo, 360, youdao), en realidad no obedecen las reglas de rastreo. La única forma de prohibirlas es marcarlas en la lista negra (puedo hacerlo con seguridad). pero para otros usuarios, pueden enfrentar el mismo problema.

robots.txt

El robots.txt es un archivo de texto bajo la raíz del sitio web que indica a los robots de búsqueda qué directorios indexar y cuáles no están permitidos. Pero no todos los bots siguen las ‘instrucciones’. Estas son las reglas que agrego para decirles a estos bots malos que desaparezcan.

# root User-agent: * Crawl-Delay: 1 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: 360Spider Disallow: / User-agent: YoudaoBot Disallow: / User-agent: sogou spider Disallow: / User-agent: YisouSpider Disallow: / User-agent: LinksCrawler Disallow: / User-agent: EasouSpider Disallow: /

.htaccess

El archivo .htaccess es un archivo de texto y oculto en el directorio de cada sitio web. Lo utiliza el módulo de reescritura de apache mod_rewrite para hacer que las URL se vean mejor. También se puede utilizar para controlar estos bots.

codigo php

Como precaución de seguridad, también he puesto el siguiente código en index.php que se usa para generar diferentes páginas según los parámetros de la URL. El 99% de las páginas del sitio web se generan utilizando este archivo de índice.

$agent=''; if (isset($_SERVER['HTTP_USER_AGENT'])) { $agent = $_SERVER['HTTP_USER_AGENT']; } define('BADBOTS','/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)/i'); if (preg_match(BADBOTS, $agent)) { die(); }

Básicamente, lo que hace el PHP anterior es verificar la cadena HTTP_USER_AGENT contra estos bots malos. Preg_match usa expresiones regulares y la opción /i especifica comparaciones que no distinguen entre mayúsculas y minúsculas.

También he notado que en el archivo de registro hay bastantes entradas como esta:
119.188.91.121 – – [24/Jul/2014:22:39:51 +0100] “GET /?charset=big5&do=System.Online&lang=ch&page =25&per=10&skin=2011aniversario HTTP/1.0" 200 3919 ” https://steakovercooked.com/ … …" “~Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)~”

Desde HTTP_USER_AGENT, normalmente piensas que no es un bot, pero creo que lo son. Así que estos bots son muy malos. En realidad, darán cualquier USER_AGENT (pueden cambiar este valor) y generalmente son de varias IP (por lo que no es fácil identificarlos usando rangos de IP específicos).

Detenga a Angry Bots como 360Spider para rastrear mi sitio

Parece funcionar después de los métodos anteriores.

parece funcionar, porque en el registro de apache, encuentro muchos de estos
[jueves 24 de julio 23:01:02 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuración del servidor: /home/linweb09/z/steakovercooked. com-1048918357/user/htdocs/
[jue 24 de julio 23:01:02 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuración del servidor: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs /error
[jue 24 de julio 23:01:08 2014] [error] [cliente 61.135.189.186] cliente denegado por la configuración del servidor: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs/

Y fasthosts también está feliz: “Sí, se ve mucho mejor ahora. así que cerraré este ticket. Muchas gracias por su acción.”

Sin embargo, esto podría no ser una solución final… Eventualmente, también moveré este sitio a VPS, servidores de balanceo de carga o servidor dedicado para que no sea eliminado por esta estúpida razón.

El otro día, leí el siguiente párrafo y no podría estar más de acuerdo con esto: la empresa de alojamiento web NO debe hacer nada para dañar la reputación de SEO de sus sitios web, sin mencionar, derribar todo su sitio sin su permiso. Fasthosts está muy por encima de la línea y es por eso que fasthosts recibió tantas críticas negativas (algo así como basura, basura, escapada para toda la vida).

Detenga a Angry Bots como 360Spider para rastrear mi sitio

Por cierto, estoy usando QuickHostUK, que es simplemente el mejor. El VPS funciona muy bien y ya he movido un par de sitios.

Detenga a Angry Bots como 360Spider para rastrear mi sitio

Fuente de grabación: helloacm.com

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More