{"id":232589,"date":"2023-01-20T16:46:00","date_gmt":"2023-01-20T13:46:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232589"},"modified":"2023-02-08T19:06:28","modified_gmt":"2023-02-08T16:06:28","slug":"ferma-i-robot-arrabbiati-come-360spider-per-eseguire-la-scansione-del-mio-sito","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/it\/ferma-i-robot-arrabbiati-come-360spider-per-eseguire-la-scansione-del-mio-sito\/","title":{"rendered":"Ferma i robot arrabbiati come 360Spider per eseguire la scansione del mio sito"},"content":{"rendered":"\n<p>Il mio sito web <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> \u00e8 stato su uno dei server di hosting condiviso di fasthosts. Di recente, il mio sito \u00e8 stato disabilitato molte volte a causa di un numero enorme di richieste al mio sito. Questi provengono principalmente dal bot che esegue la scansione del sito. L&#8217;ingegnere delle operazioni IT di Fasthosts Ewan MacDonald mi ha inviato una mail e ha detto:<\/p>\n<p>Caro justyy<\/p>\n<p>Non sono sicuro di cosa stai facendo esattamente con il tuo sito, ma hai consumato oltre il 75% dei processi Apache disponibili. Ci\u00f2 ha causato enormi problemi a tutti gli altri clienti sul server web.<\/p>\n<p>Sto eseguendo una scansione di sicurezza sul tuo sito in questo momento.<\/p>\n<p>Tieni presente che il tuo sito ne contiene 85.000 pari a 8,6 GB. I nostri termini affermano che tutti i file nel tuo spazio web devono far parte del sito Web, quindi tutti gli 85.000 file fanno parte del sito e sono accessibili tramite il sito? In caso contrario, devono essere rimossi per favore.<\/p>\n<p>Rimuover\u00f2 anche le 2 cartelle rinominate htdocs a meno che tu non ti opponga?<\/p>\n<p>Se il tuo sito causa lo stesso problema di prestazioni mentre la scansione \u00e8 in esecuzione, lo porter\u00f2 nuovamente offline finch\u00e9 non sarai in grado di fornire una spiegazione del motivo per cui sta vincolando circa 200 processi Apache.<\/p>\n<p>Distinti saluti,<\/p>\n<p>Quindi, ho controllato il log di <strong>apache2<\/strong> e ne ho trovati molti di questi:<\/p>\n<p>[Mer Jul 23 21:40:21 2014] [avviso] mod_fcgid: impossibile applicare lo slot di processo per \/var\/www\/fcgi\/php54-cgi<br \/>\n[Mer Jul 23 21:40:22 2014] [avviso] mod_fcgid: pu\u00f2 &#8216;t apply process slot for \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:30 2014] [warn] mod_fcgid: impossibile applicare process slot per \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Wed Jul 23 21:40:31 2014] [warn] mod_fcgid: impossibile applicare lo slot di processo per \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:31 2014] [warn] mod_fcgid: can&#8217; t applicare lo slot di processo per \/var\/www\/fcgi\/php54-cgi<br \/>\n[Mer Jul 23 21:40:31 2014] [avviso] mod_fcgid: impossibile applicare lo slot di processo per \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Apparentemente, sembra che 360spider abbia colpito il sito in modo piuttosto pesante e ovviamente influisca su altri siti Web sullo stesso host condiviso, ed \u00e8 per questo che i fasthost devono eliminare il mio sito.<\/p>\n<p>Il problema 360spider \u00e8 tornato pi\u00f9 tardi, quindi hanno dovuto disabilitare di nuovo il mio sito finch\u00e9 non ho uno script pronto per bloccarne l&#8217;accesso poich\u00e9 sta causando problemi ad altri utenti del server.<\/p>\n<p>Mi dispiace che ci\u00f2 causi problemi ad altri host di condivisione, ma secondo me potrebbe essere meglio bloccarli utilizzando un livello superiore (es. impostazioni di apache). Immagina, qualsiasi altro sito Web potrebbe incontrare lo stesso problema. In precedenza ho ottimizzato il mio sito Web per ridurre l&#8217;utilizzo della CPU memorizzandoli nella cache in HTML statici. ma a causa di un certo numero di pagine (circa 5000 segnalate in google webmaster), alcuni spider potrebbero non essere abbastanza intelligenti da capire il duplicato. Gli spider di Google vanno bene perch\u00e9 posso configurare i parametri e obbediscono al file robots.txt. Ma per questi ragni arrabbiati (ad esempio 360, youdao), in realt\u00e0 non obbediscono del tutto alle regole di scansione.. L&#8217;unico modo per bandirli \u00e8 contrassegnarli nella lista nera (posso farlo di sicuro). ma per altri utenti, potrebbero dover affrontare lo stesso problema.<\/p>\n<h2>robots.txt<\/h2>\n<p>Il robots.txt \u00e8 un file di testo sotto la radice del sito Web che indirizza i robot di ricerca su quali directory indicizzare e quali non sono consentite. Ma non tutti i robot seguono le &quot;istruzioni&quot;. Ecco le regole che aggiungo per dire a questi cattivi robot che se ne vanno.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>Il file <strong>.htaccess<\/strong> \u00e8 un file di testo e nascosto in ogni directory del sito web. Viene utilizzato dal modulo di riscrittura di Apache <strong>mod_rewrite<\/strong> per rendere gli URL pi\u00f9 belli. Pu\u00f2 essere utilizzato anche per controllare questi robot.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>codice PHP<\/h2>\n<p>Come precauzione di sicurezza, ho anche inserito il seguente codice in <strong>index.php<\/strong> che viene utilizzato per generare pagine diverse in base ai parametri URL. Il 99% delle pagine del sito Web viene generato utilizzando questo file di indice.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>Fondamentalmente, ci\u00f2 che fa il PHP sopra \u00e8 controllare la stringa <strong>HTTP_USER_AGENT<\/strong> contro questi bot dannosi. Il <strong>preg_match<\/strong> utilizza un&#8217;espressione regolare e l&#8217;opzione <strong>\/i<\/strong> specifica confronti senza distinzione tra maiuscole e minuscole.<\/p>\n<p>Ho anche notato che nel file di registro ci sono molte voci come questa:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] &#8220;GET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011anniversario HTTP\/1.0&quot; 200 3919 &#8221; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; &#8220;~Mozilla\/5.0 (compatibile; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~&#8221;<\/p>\n<p>Da HTTP_USER_AGENT normalmente pensi che non sia un bot, ma penso che lo siano. Quindi questi robot sono molto cattivi. In realt\u00e0 daranno qualsiasi USER_AGENT (possono cambiare questo valore) e di solito provengono da pi\u00f9 IP (quindi non \u00e8 facile identificarli tutti usando intervalli IP specifici).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Ferma i robot arrabbiati come 360Spider per eseguire la scansione del mio sito\"><\/a><\/p>\n<p>Sembra funzionare dopo i metodi di cui sopra.<\/p>\n<p>sembra funzionare, perch\u00e9 nel registro di apache ne trovo molti<br \/>\n[gio lug 24 23:01:02 2014] [errore] [client 61.135.189.186] client negato dalla configurazione del server: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[gio lug 24 23:01:02 2014] [errore] [client 61.135.189.186] client negato dalla configurazione del server: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs \/errore<br \/>\n[gio 24 luglio 23:01:08 2014] [errore] [client 61.135.189.186] client negato dalla configurazione del server: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>E anche i fasthost sono contenti: &#8220;S\u00ec, ora sta molto meglio. quindi chiuder\u00f2 questo biglietto. Molte grazie per la tua azione.<\/p>\n<p>Tuttavia, questa potrebbe non essere una soluzione finale &#8230; Alla fine, sposter\u00f2 anche questo sito su <a href=\"https:\/\/wordpress.mediadoma.com\/it\/i-vps-cloud-sono-migliori-del-tradizionale-hosting-vps\/\" title=\"VPS\">VPS<\/a>, server di bilanciamento del carico o server dedicato in modo che non venga rimosso a causa di questo stupido motivo.<\/p>\n<p>L&#8217;altro giorno, ho letto il paragrafo seguente e non potrei essere pi\u00f9 d&#8217;accordo su questo: la societ\u00e0 di web hosting <strong>NON<\/strong> dovrebbe fare nulla per danneggiare la reputazione <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO<\/a> dei tuoi siti Web, per non parlare del fatto che l&#8217;intero sito non funziona senza i tuoi permessi. Fasthosts \u00e8 appena oltre il limite ed \u00e8 per questo che fasthosts ha ricevuto cos\u00ec tante recensioni negative (qualcosa come spazzatura, merda, scappa per tutta la vita).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Ferma i robot arrabbiati come 360Spider per eseguire la scansione del mio sito\"><\/a><\/p>\n<p>A proposito, sto usando <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a>, che \u00e8 semplicemente il migliore. Il VPS funziona alla grande e ho gi\u00e0 spostato un paio di siti.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Ferma i robot arrabbiati come 360Spider per eseguire la scansione del mio sito\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">Fonte di registrazione:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ferma i robot arrabbiati come 360Spider per eseguire la scansione del mio sito<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[1031,720,844,865],"tags":[1168],"class_list":["post-232589","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sicurezza","category-sviluppatore","category-tutorial","category-wordpress-6","tag-affiai-it"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/posts\/232589","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/comments?post=232589"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/posts\/232589\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/media?parent=232589"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/categories?post=232589"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/it\/wp-json\/wp\/v2\/tags?post=232589"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}