{"id":232125,"date":"2023-01-20T16:31:00","date_gmt":"2023-01-20T13:31:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232125"},"modified":"2023-02-08T19:13:30","modified_gmt":"2023-02-08T16:13:30","slug":"stoppa-angry-bots-som-360spider-till-crawel-my-site","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/sv\/stoppa-angry-bots-som-360spider-till-crawel-my-site\/","title":{"rendered":"Stoppa Angry Bots som 360Spider till Crawel My Site"},"content":{"rendered":"\n<p>Min webbplats <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> har varit p\u00e5 en av fasthosts delade v\u00e4rdservrar. Nyligen har min sida inaktiverats m\u00e5nga g\u00e5nger p\u00e5 grund av ett stort antal f\u00f6rfr\u00e5gningar till min sida. Dessa kommer huvudsakligen fr\u00e5n bot som genoms\u00f6ker webbplatsen. Fasthosts IT Operations Engineer Ewan MacDonald mailade mig och han sa:<\/p>\n<p>K\u00e4ra justyy<\/p>\n<p>Jag \u00e4r inte s\u00e4ker p\u00e5 vad du g\u00f6r med din webbplats exakt men du har f\u00f6rbrukat \u00f6ver 75 % av de tillg\u00e4ngliga Apache-processerna. Detta har orsakat enorma problem f\u00f6r alla andra kunder p\u00e5 webbservern.<\/p>\n<p>Jag k\u00f6r en s\u00e4kerhetsskanning mot din webbplats just nu.<\/p>\n<p>Observera att din webbplats inneh\u00e5ller 85 000 motsvarande 8,6 GB. V\u00e5ra villkor s\u00e4ger att alla filer i ditt webbutrymme m\u00e5ste vara en del av webbplatsen s\u00e5 \u00e4r alla 85 000 filer en del av webbplatsen och tillg\u00e4ngliga via webbplatsen? Om inte, m\u00e5ste de tas bort tack.<\/p>\n<p>Jag kommer ocks\u00e5 att ta bort de tv\u00e5 omd\u00f6pta htdocs-mapparna om du inte inv\u00e4nder?<\/p>\n<p>Om din webbplats orsakar samma prestandaproblem medan skanningen k\u00f6rs kommer jag att ta den offline igen tills du kan ge en f\u00f6rklaring till varf\u00f6r den binder upp cirka 200 Apache-processer.<\/p>\n<p>V\u00e4nliga h\u00e4lsningar,<\/p>\n<p>Sedan kollade jag <strong>apache2-<\/strong> loggen och jag hittar massor av dessa:<\/p>\n<p>[Wed Jul 23 21:40:21 2014] [warn] mod_fcgid: kan inte till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:22 2014] [warn] mod_fcgid: can inte till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<br \/>\n[onsdag 23 jul 21:40:30 2014] [warn] mod_fcgid: kan inte till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Wed Jul 23 21:40:31 2014] [warn] mod_fcgid: kan inte till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:31 2014] [warn] mod_fcgid: can&#8217; t till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<br \/>\n[on jul 23 21:40:31 2014] [warn] mod_fcgid: kan inte till\u00e4mpa processplats f\u00f6r \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Tydligen ser det ut som att 360spider tr\u00e4ffade webbplatsen ganska h\u00e5rt och det p\u00e5verkar uppenbarligen andra webbplatser p\u00e5 samma delade v\u00e4rd, och det \u00e4r d\u00e4rf\u00f6r fasthosts m\u00e5ste ta ner min webbplats.<\/p>\n<p>360spider-problemet har \u00e5terkommit senare s\u00e5 de har varit tvungna att inaktivera min webbplats igen tills jag har ett skript redo att blockera dess \u00e5tkomst eftersom det orsakar problem f\u00f6r andra anv\u00e4ndare av servern.<\/p>\n<p>Jag \u00e4r ledsen att detta orsakar problem f\u00f6r andra delv\u00e4rdar, men enligt min mening kan det vara b\u00e4ttre att blockera dem med en h\u00f6gre niv\u00e5 (t.ex. apache-inst\u00e4llningar). F\u00f6rest\u00e4ll dig bara, alla andra webbplatser kan m\u00f6ta samma problem. Jag har optimerat min webbplats tidigare f\u00f6r att minska CPU-anv\u00e4ndningen genom att cacha dem till statiska HTML-filer. men p\u00e5 grund av ett ganska stort antal sidor (cirka 5000 rapporterade i google webmaster) kanske vissa spindlar inte \u00e4r smarta nog att lista ut duplikatet. Googles spindlar \u00e4r bra eftersom jag kan konfigurera parametrarna och de f\u00f6ljer robots.txt-filen. Men f\u00f6r dessa arga spindlar (t.ex. 360, youdao) f\u00f6ljer de faktiskt inte helt reglerna f\u00f6r genoms\u00f6kning.. Det enda s\u00e4ttet att f\u00f6rbjuda dem \u00e4r att markera dem i den svarta listan (det kan jag g\u00f6ra med s\u00e4kerhet). men f\u00f6r andra anv\u00e4ndare kan de m\u00f6ta samma problem.<\/p>\n<h2>robots.txt<\/h2>\n<p>Robots.txt \u00e4r en textfil under roten p\u00e5 webbplatsen som styr s\u00f6krobotarna vilka kataloger som ska indexeras och vilka som inte \u00e4r till\u00e5tna. Men inte alla bots f\u00f6ljer &quot;instruktionerna&quot;. H\u00e4r \u00e4r reglerna jag l\u00e4gger till f\u00f6r att ber\u00e4tta f\u00f6r dessa d\u00e5liga bots f\u00f6rsvinner.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>Filen <strong>.htaccess<\/strong> \u00e4r en textfil och en dold fil i varje webbplatskatalog. Den anv\u00e4nds av apache re-write modulen <strong>mod_rewrite<\/strong> f\u00f6r att f\u00e5 webbadresser att se snyggare ut. Den kan ocks\u00e5 anv\u00e4ndas f\u00f6r att kontrollera dessa bots.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>PHP-kod<\/h2>\n<p>Som en s\u00e4kerhets\u00e5tg\u00e4rd har jag \u00e4ven lagt f\u00f6ljande kod p\u00e5 <strong>index.php<\/strong> som anv\u00e4nds f\u00f6r att generera olika sidor enligt URL-parametrarna. 99% webbsidor genereras med denna indexfil.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>I grund och botten, vad ovanst\u00e5ende PHP g\u00f6r \u00e4r att kontrollera <strong>HTTP_USER_AGENT-<\/strong> str\u00e4ngen mot dessa d\u00e5liga bots. Preg_match anv\u00e4nder regulj\u00e4rt uttryck och alternativet <strong>\/i anger<\/strong> <strong>skiftl\u00e4gesok\u00e4nsliga<\/strong> j\u00e4mf\u00f6relser.<\/p>\n<p>Jag har ocks\u00e5 m\u00e4rkt i loggfilen, det finns ganska m\u00e5nga s\u00e5dana h\u00e4r poster:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] &#8221;GET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011\u00e5rsjubileum HTTP\/1.0&quot; 200 3919 &#8221; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; &#8221;~Mozilla\/5.0 (kompatibel; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~&#8221;<\/p>\n<p>Fr\u00e5n HTTP_USER_AGENT tror du normalt att det inte \u00e4r en bot, men jag tror att de \u00e4r det. S\u00e5 dessa bots \u00e4r v\u00e4ldigt d\u00e5liga. De kommer faktiskt att ge vad som helst USER_AGENT (de kan \u00e4ndra detta v\u00e4rde) och de \u00e4r vanligtvis fr\u00e5n flera IP-adresser (s\u00e5 det \u00e4r inte l\u00e4tt att identifiera alla med specifika IP-intervall).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Stoppa Angry Bots som 360Spider till Crawel My Site\"><\/a><\/p>\n<p>Det verkar fungera efter ovanst\u00e5ende metoder.<\/p>\n<p>det verkar fungera, f\u00f6r i apacheloggen hittar jag m\u00e5nga av dessa<br \/>\n[Thu Jul 24 23:01:02 2014] [fel] [klient 61.135.189.186] som nekats av serverkonfigurationen: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[tors 24 jul 2014] [fel] [klient 61.135.189.186] klient nekad av serverkonfiguration: \/home\/linweb09\/z\/steakovercooked.com\/857docs \/error<br \/>\n[Thu Jul 24 23:01:08 2014] [fel] [klient 61.135.189.186] klient nekad av serverkonfiguration: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>Och snabbv\u00e4rdarna \u00e4r ocks\u00e5 glada: &quot;Japp, det ser mycket mycket b\u00e4ttre ut nu. s\u00e5 jag st\u00e4nger den h\u00e4r biljetten. Stort tack f\u00f6r ditt agerande.&quot;<\/p>\n<p>Men det h\u00e4r kanske inte \u00e4r en slutgiltig l\u00f6sning&#8230; S\u00e5 sm\u00e5ningom kommer jag ocks\u00e5 att flytta denna sida till <a href=\"https:\/\/wordpress.mediadoma.com\/sv\/cloud-vps-aer-baettre-aen-traditionell-vps-hosting\/\" title=\"VPS\">VPS<\/a>, lastbalanseringsservrar eller dedikerad server s\u00e5 att den inte tas ner p\u00e5 grund av denna dumma anledning.<\/p>\n<p>H\u00e4romdagen l\u00e4ste jag f\u00f6ljande stycke och jag kunde inte h\u00e5lla med mer om detta: Webbhotellet b\u00f6r <strong>INTE<\/strong> g\u00f6ra n\u00e5got f\u00f6r att skada din webbplats <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO-<\/a> rykte, f\u00f6r att inte tala om, ta ner hela din webbplats utan dina tillst\u00e5nd. Fasthosts \u00e4r bara l\u00e5ngt \u00f6ver gr\u00e4nsen och det \u00e4r d\u00e4rf\u00f6r fasthosts fick s\u00e5 m\u00e5nga d\u00e5liga recensioner (n\u00e5got som skr\u00e4p, skit, komma undan f\u00f6r hela livet).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Stoppa Angry Bots som 360Spider till Crawel My Site\"><\/a><\/p>\n<p>F\u00f6rresten, jag anv\u00e4nder <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a>, som helt enkelt \u00e4r b\u00e4st. VPS fungerar bara bra och jag har redan flyttat \u00f6ver ett par sajter.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Stoppa Angry Bots som 360Spider till Crawel My Site\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">Inspelningsk\u00e4lla:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Stoppa Angry Bots som 360Spider till Crawel My Site<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[848,1034,724,868],"tags":[1173],"class_list":["post-232125","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-handledningar","category-sakerhet","category-utvecklaren","category-wordpress-9","tag-affiai-sv"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/posts\/232125","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/comments?post=232125"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/posts\/232125\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/media?parent=232125"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/categories?post=232125"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/sv\/wp-json\/wp\/v2\/tags?post=232125"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}