{"id":232463,"date":"2023-01-20T16:43:00","date_gmt":"2023-01-20T13:43:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232463"},"modified":"2023-02-08T18:38:26","modified_gmt":"2023-02-08T15:38:26","slug":"arretez-les-robots-en-colere-tels-que-360spider-pour-explorer-mon-site","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/fr\/arretez-les-robots-en-colere-tels-que-360spider-pour-explorer-mon-site\/","title":{"rendered":"Arr\u00eatez les robots en col\u00e8re tels que 360Spider pour explorer mon site"},"content":{"rendered":"\n<p>Mon site Web <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> a \u00e9t\u00e9 sur l&rsquo;un des serveurs d&rsquo;h\u00e9bergement partag\u00e9 fasthosts. R\u00e9cemment, mon site a \u00e9t\u00e9 d\u00e9sactiv\u00e9 plusieurs fois en raison d&rsquo;un grand nombre de demandes sur mon site. Celles-ci proviennent principalement de robots explorant le site. L&rsquo;ing\u00e9nieur des op\u00e9rations informatiques de Fasthosts, Ewan MacDonald, m&rsquo;a envoy\u00e9 un e-mail et m&rsquo;a dit\u00a0:<\/p>\n<p>Cher justyy<\/p>\n<p>Je ne sais pas exactement ce que vous faites avec votre site, mais vous avez consomm\u00e9 plus de 75\u00a0% des processus Apache disponibles. Cela a caus\u00e9 d&rsquo;\u00e9normes probl\u00e8mes \u00e0 tous les autres clients du serveur Web.<\/p>\n<p>J&rsquo;ex\u00e9cute actuellement une analyse de s\u00e9curit\u00e9 sur votre site.<\/p>\n<p>Veuillez noter que votre site en contient 85 000, soit 8,6 Go. Nos conditions stipulent que tous les fichiers de votre espace Web doivent faire partie du site Web. Par cons\u00e9quent, les 85 000 fichiers font-ils tous partie du site et sont-ils accessibles via le site\u00a0? Si ce n&rsquo;est pas le cas, ils doivent \u00eatre supprim\u00e9s s&rsquo;il vous pla\u00eet.<\/p>\n<p>Je vais \u00e9galement supprimer les 2 dossiers htdocs renomm\u00e9s, sauf si vous vous y opposez\u00a0?<\/p>\n<p>Si votre site pose le m\u00eame probl\u00e8me de performances pendant l&rsquo;ex\u00e9cution de l&rsquo;analyse, je le mettrai \u00e0 nouveau hors ligne jusqu&rsquo;\u00e0 ce que vous puissiez expliquer pourquoi il bloque environ 200 processus Apache.<\/p>\n<p>Meilleures salutations,<\/p>\n<p>Ensuite, j&rsquo;ai v\u00e9rifi\u00e9 le journal <strong>apache2<\/strong>, et j&rsquo;en trouve beaucoup :<\/p>\n<p>[Wed Jul 23 21:40:21 2014] [warn] mod_fcgid\u00a0: impossible d&rsquo;appliquer l&#8217;emplacement de processus pour \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:22 2014] [warn] mod_fcgid\u00a0: peut &lsquo;t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:30 2014] [warn] mod_fcgid: can&rsquo;t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Mer 23 juillet 21:40:31 2014] [warn] mod_fcgid\u00a0: impossible d&rsquo;appliquer l&#8217;emplacement de processus pour \/var\/www\/fcgi\/php54-cgi<br \/>\n[Mer 23 juillet 21:40:31 2014] [warn] mod_fcgid\u00a0: can&rsquo;t t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:31 2014] [warn] mod_fcgid: can&rsquo;t apply process slot for \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Apparemment, il semble que 360spider frappe assez lourdement le site et cela affecte \u00e9videmment d&rsquo;autres sites Web sur le m\u00eame h\u00f4te partag\u00e9, et c&rsquo;est pourquoi les fasthosts doivent supprimer mon site.<\/p>\n<p>Le probl\u00e8me de 360spider est revenu plus tard, ils ont donc d\u00fb d\u00e9sactiver \u00e0 nouveau mon site jusqu&rsquo;\u00e0 ce que j&rsquo;aie un script pr\u00eat \u00e0 bloquer son acc\u00e8s car cela cause des probl\u00e8mes aux autres utilisateurs du serveur.<\/p>\n<p>Je suis d\u00e9sol\u00e9 que cela cause des probl\u00e8mes aux autres h\u00e9bergeurs de partage, mais \u00e0 mon avis, il serait peut-\u00eatre pr\u00e9f\u00e9rable de les bloquer en utilisant un niveau sup\u00e9rieur (par exemple, les param\u00e8tres apache). Imaginez, tout autre site Web peut rencontrer le m\u00eame probl\u00e8me. J&rsquo;ai d\u00e9j\u00e0 optimis\u00e9 mon site Web afin de r\u00e9duire l&rsquo;utilisation du processeur en les mettant en cache dans des HTML statiques. mais en raison d&rsquo;un certain nombre de pages (environ 5000 signal\u00e9es dans google webmaster), certaines araign\u00e9es peuvent ne pas \u00eatre assez intelligentes pour comprendre le doublon. Les araign\u00e9es de Google vont bien car je peux configurer les param\u00e8tres et elles ob\u00e9issent au fichier robots.txt. Mais pour ces araign\u00e9es en col\u00e8re (par exemple 360, youdao), elles n&rsquo;ob\u00e9issent pas tout \u00e0 fait aux r\u00e8gles d&rsquo;exploration. La seule fa\u00e7on de les bannir est de les marquer dans la liste noire (je peux le faire \u00e0 coup s\u00fbr). mais pour d&rsquo;autres utilisateurs, ils peuvent rencontrer le m\u00eame probl\u00e8me.<\/p>\n<h2>robots.txt<\/h2>\n<p>Le robots.txt est un fichier texte sous la racine du site Web qui dirige les robots de recherche vers les r\u00e9pertoires \u00e0 indexer et ceux qui ne sont pas autoris\u00e9s. Mais tous les bots ne suivent pas les &quot;instructions&quot;. Voici les r\u00e8gles que j&rsquo;ajoute pour dire \u00e0 ces mauvais bots de dispara\u00eetre.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>Le fichier <strong>.htaccess<\/strong> est un fichier texte et cach\u00e9 dans chaque r\u00e9pertoire de site Web. Il est utilis\u00e9 par le module de r\u00e9\u00e9criture apache <strong>mod_rewrite<\/strong> pour rendre les URL plus belles. Il peut \u00e9galement \u00eatre utilis\u00e9 pour contr\u00f4ler ces bots.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>Code PHP<\/h2>\n<p>Par mesure de s\u00e9curit\u00e9, j&rsquo;ai \u00e9galement mis le code suivant \u00e0 l&rsquo; <strong>index.php<\/strong> qui est utilis\u00e9 pour g\u00e9n\u00e9rer diff\u00e9rentes pages en fonction des param\u00e8tres d&rsquo;URL. 99% des pages du site Web sont g\u00e9n\u00e9r\u00e9es \u00e0 l&rsquo;aide de ce fichier d&rsquo;index.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>Fondamentalement, ce que fait le PHP ci-dessus est de v\u00e9rifier la cha\u00eene <strong>HTTP_USER_AGENT<\/strong> par rapport \u00e0 ces mauvais bots. Le <strong>preg_match<\/strong> utilise une expression r\u00e9guli\u00e8re et l&rsquo;option <strong>\/i<\/strong> sp\u00e9cifie des comparaisons insensibles \u00e0 la casse.<\/p>\n<p>J&rsquo;ai \u00e9galement remarqu\u00e9 dans le fichier journal, il y a pas mal d&rsquo;entr\u00e9es comme celle-ci :<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] \u00abGET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011anniversary HTTP\/1.0&quot; 200 3919 &quot; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; &quot;~Mozilla\/5.0 (compatible ; MSIE 9.0 ; Windows NT 6.1 ; Trident\/5.0)~&quot;<\/p>\n<p>\u00c0 partir de HTTP_USER_AGENT, vous pensez normalement que ce n&rsquo;est pas un bot, mais je pense qu&rsquo;ils le sont. Ces bots sont donc tr\u00e8s mauvais. Ils donneront en fait n&rsquo;importe quel USER_AGENT (ils peuvent changer cette valeur) et ils proviennent g\u00e9n\u00e9ralement de plusieurs adresses IP (il n&rsquo;est donc pas facile de les identifier toutes \u00e0 l&rsquo;aide de plages d&rsquo;adresses IP sp\u00e9cifiques).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Arr\u00eatez les robots en col\u00e8re tels que 360Spider pour explorer mon site\"><\/a><\/p>\n<p>Cela semble fonctionner apr\u00e8s les m\u00e9thodes ci-dessus.<\/p>\n<p>cela semble fonctionner, car dans le journal apache, j&rsquo;en trouve beaucoup<br \/>\n[Jeu 24 juillet 23:01:02 2014] [erreur] [client 61.135.189.186] client refus\u00e9 par la configuration du serveur: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[Jeu 24 juillet 23:01:02 2014] [erreur] [client 61.135.189.186] client refus\u00e9 par la configuration du serveur: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs \/error<br \/>\n[Thu Jul 24 23:01:08 2014] [error] [client 61.135.189.186] client refus\u00e9 par la configuration du serveur\u00a0: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>Et le fasthosts est \u00e9galement ravi: \u00abOuaip, \u00e7a va beaucoup mieux maintenant. donc je ferme ce ticket. Un grand merci pour votre action.&quot;<\/p>\n<p>Cependant, ce n&rsquo;est peut-\u00eatre pas une solution d\u00e9finitive\u2026 A terme, je d\u00e9placerai \u00e9galement ce site vers des <a href=\"https:\/\/wordpress.mediadoma.com\/fr\/les-vps-cloud-sont-meilleurs-que-lhebergement-vps-traditionnel\/\" title=\"VPS\">VPS<\/a>, des serveurs de r\u00e9partition de charge ou un serveur d\u00e9di\u00e9 afin qu&rsquo;il ne soit pas supprim\u00e9 \u00e0 cause de cette raison stupide.<\/p>\n<p>L&rsquo;autre jour, j&rsquo;ai lu le paragraphe suivant et je ne pouvais pas \u00eatre plus d&rsquo;accord \u00e0 ce sujet\u00a0: la soci\u00e9t\u00e9 d&rsquo;h\u00e9bergement Web ne devrait <strong>rien<\/strong> faire pour nuire \u00e0 la r\u00e9putation de <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">r\u00e9f\u00e9rencement<\/a> de vos sites Web, sans parler de supprimer l&rsquo;int\u00e9gralit\u00e9 de votre site sans vos autorisations. Les fasthosts sont juste au-dessus de la limite et c&rsquo;est pourquoi les fasthosts ont re\u00e7u tant de mauvaises critiques (quelque chose comme des ordures, de la merde, s&rsquo;\u00e9vader toute la vie).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Arr\u00eatez les robots en col\u00e8re tels que 360Spider pour explorer mon site\"><\/a><\/p>\n<p>Au fait, j&rsquo;utilise <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a>, qui est tout simplement le meilleur. Le VPS fonctionne tr\u00e8s bien et j&rsquo;ai d\u00e9j\u00e0 d\u00e9plac\u00e9 quelques sites.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Arr\u00eatez les robots en col\u00e8re tels que 360Spider pour explorer mon site\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">Source d&rsquo;enregistrement:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Arr\u00eatez les robots en col\u00e8re tels que 360Spider pour explorer mon site<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[717,1028,841,862],"tags":[1167],"class_list":["post-232463","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-developpeur","category-securite","category-tutoriels","category-wordpress-3","tag-affiai-fr"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/posts\/232463","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/comments?post=232463"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/posts\/232463\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/media?parent=232463"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/categories?post=232463"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fr\/wp-json\/wp\/v2\/tags?post=232463"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}