{"id":232511,"date":"2023-01-20T16:08:00","date_gmt":"2023-01-20T13:08:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232511"},"modified":"2023-02-08T19:32:10","modified_gmt":"2023-02-08T16:32:10","slug":"lopeta-vihaiset-robotit-kuten-360spider-to-crawel-my-site","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/fi\/lopeta-vihaiset-robotit-kuten-360spider-to-crawel-my-site\/","title":{"rendered":"Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site"},"content":{"rendered":"\n<p>Verkkosivustoni <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> on ollut yhdell\u00e4 jaetuista is\u00e4nt\u00e4palvelimista. Viime aikoina sivustoni on poistettu k\u00e4yt\u00f6st\u00e4 monta kertaa, koska sivustolleni on tullut valtava m\u00e4\u00e4r\u00e4 pyynt\u00f6j\u00e4. N\u00e4m\u00e4 tulevat p\u00e4\u00e4asiassa sivustoa indeksoivista roboteista. Fasthostien IT-operaatioinsin\u00f6\u00f6ri Ewan MacDonald l\u00e4hetti minulle s\u00e4hk\u00f6postia ja sanoi:<\/p>\n<p>Rakas justyy<\/p>\n<p>En ole varma, mit\u00e4 teet sivustollasi tarkalleen, mutta olet k\u00e4ytt\u00e4nyt yli 75 % k\u00e4ytett\u00e4viss\u00e4 olevista Apache-prosesseista. T\u00e4m\u00e4 on aiheuttanut valtavia ongelmia kaikille muille verkkopalvelimen asiakkaille.<\/p>\n<p>Suoritan t\u00e4ll\u00e4 hetkell\u00e4 sivustosi suojausskannausta.<\/p>\n<p>Huomaa, ett\u00e4 sivustollasi on 85 000, mik\u00e4 vastaa 8,6 Gt. Ehtojen mukaan kaikkien verkkotilasi tiedostojen on oltava osa verkkosivustoa, joten ovatko kaikki 85 000 tiedostoa osa sivustoa ja ovatko ne k\u00e4ytett\u00e4viss\u00e4 sivuston kautta? Jos ei, ne on poistettava.<\/p>\n<p>Aion my\u00f6s poistaa 2 uudelleennimetty\u00e4 htdocs-kansiota, ellet vastusta?<\/p>\n<p>Jos sivustosi aiheuttaa saman suorituskykyongelman tarkistuksen aikana, siirr\u00e4n sen uudelleen offline-tilaan, kunnes voit selitt\u00e4\u00e4, miksi se sitoo noin 200 Apache-prosessia.<\/p>\n<p>Parhain terveisin,<\/p>\n<p>Sitten tarkistin <strong>apache2<\/strong> &#8211; lokin ja l\u00f6ysin paljon n\u00e4it\u00e4:<\/p>\n<p>[Ke 23. hein\u00e4kuuta 21:40:21 2014] [varoita] mod_fcgid: ei voi k\u00e4ytt\u00e4\u00e4 prosessipaikkaa \/var\/www\/fcgi\/php54-cgi<br \/>\n[Ke 23. hein\u00e4kuuta 21:40:22 2014] [varoita] mod_fcgid: voi &#8217;\u00e4l\u00e4 k\u00e4yt\u00e4 prosessipaikkaa \/var\/www\/fcgi\/php54-cgi<br \/>\n[Ke 23. hein\u00e4kuuta 21:40:30 2014] [varoita] mod_fcgid: ei voi hakea prosessipaikkaa \/var\/www\/fcgi\/php54-cgi<br \/>\n[ ke 23. hein\u00e4kuuta 21:40:31 2014] [varoita] mod_fcgid: ei voi k\u00e4ytt\u00e4\u00e4 prosessipaikkaa \/var\/www\/fcgi\/php54-cgi<br \/>\n[Ke 23. hein\u00e4kuuta 21:40:31 2014] [varoittaa] mod_fcgid: voi&#8217; t k\u00e4yt\u00e4 prosessipaikkaa tiedostolle \/var\/www\/fcgi\/php54-cgi<br \/>\n[Ke 23. hein\u00e4kuuta 21:40:31 2014] [varoita] mod_fcgid: ei voi hakea prosessipaikkaa tiedostolle \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Ilmeisesti n\u00e4ytt\u00e4\u00e4 silt\u00e4, \u200b\u200b\u200b\u200bett\u00e4 360spider osui sivustoon melko voimakkaasti ja se vaikuttaa selv\u00e4sti muihin saman jaetun is\u00e4nn\u00e4n verkkosivustoihin, ja siksi pikapalveluntarjoajien on poistettava sivustoni.<\/p>\n<p>360spider-ongelma on palannut my\u00f6hemmin, joten heid\u00e4n on t\u00e4ytynyt poistaa sivustoni k\u00e4yt\u00f6st\u00e4 uudelleen, kunnes minulla on valmiina komentosarja, joka est\u00e4\u00e4 sen p\u00e4\u00e4syn, koska se aiheuttaa ongelmia muille palvelimen k\u00e4ytt\u00e4jille.<\/p>\n<p>Olen pahoillani, ett\u00e4 t\u00e4m\u00e4 aiheuttaa ongelmia muille jaon is\u00e4nnille, mutta mielest\u00e4ni saattaa olla parempi est\u00e4\u00e4 ne k\u00e4ytt\u00e4m\u00e4ll\u00e4 korkeampaa tasoa (esim. apache-asetukset). Kuvittele, ett\u00e4 kaikki muut sivustot voivat kohdata saman ongelman. Olen optimoinut verkkosivustoni aiemmin v\u00e4hent\u00e4\u00e4kseni suorittimen k\u00e4ytt\u00f6\u00e4 tallentamalla ne staattisiin HTML-tiedostoihin. mutta johtuen melko monista sivuista (noin 5000 raportoitu google webmaster), jotkut h\u00e4m\u00e4h\u00e4kit eiv\u00e4t ehk\u00e4 ole tarpeeksi fiksuja selvitt\u00e4\u00e4 kaksoiskappale. Google-h\u00e4m\u00e4h\u00e4kit ovat kunnossa, koska voin m\u00e4\u00e4ritt\u00e4\u00e4 parametrit ja ne tottelevat robots.txt-tiedostoa. Mutta n\u00e4m\u00e4 vihaiset h\u00e4m\u00e4h\u00e4kit (esim. 360, youdao) eiv\u00e4t itse asiassa noudata indeksointis\u00e4\u00e4nt\u00f6j\u00e4. Ainoa tapa kielt\u00e4\u00e4 heid\u00e4t on merkit\u00e4 ne mustalle listalle (min\u00e4 voin tehd\u00e4 sen varmasti). mutta muut k\u00e4ytt\u00e4j\u00e4t voivat kohdata saman ongelman.<\/p>\n<h2>robots.txt<\/h2>\n<p>Robots.txt on verkkosivuston juuren alla oleva tekstitiedosto, joka ohjaa hakubotit, mitk\u00e4 hakemistot indeksoidaan ja mitk\u00e4 eiv\u00e4t ole sallittuja. Mutta kaikki robotit eiv\u00e4t noudata &quot;ohjeita&quot;. T\u00e4ss\u00e4 ovat s\u00e4\u00e4nn\u00f6t, jotka lis\u00e4\u00e4n kertoakseni n\u00e4iden huonojen robottien katoamisesta.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>Tiedosto <strong>.htaccess<\/strong> on teksti- ja piilotettu tiedosto jokaisessa verkkosivuston hakemistossa. Apachen uudelleenkirjoitusmoduuli <strong>mod_rewrite<\/strong> k\u00e4ytt\u00e4\u00e4 sit\u00e4 saadakseen URL-osoitteet n\u00e4ytt\u00e4m\u00e4\u00e4n kauniilta. Sit\u00e4 voidaan k\u00e4ytt\u00e4\u00e4 my\u00f6s n\u00e4iden robottien ohjaamiseen.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>PHP koodi<\/h2>\n<p>Turvallisuussyist\u00e4 olen my\u00f6s lis\u00e4nnyt seuraavan koodin <strong>hakemistoon index.php<\/strong>, jota k\u00e4ytet\u00e4\u00e4n luomaan erilaisia \u200b\u200bsivuja URL-parametrien mukaan. 99 % verkkosivustojen sivuista luodaan t\u00e4m\u00e4n hakemistotiedoston avulla.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>Periaatteessa yll\u00e4 oleva PHP tarkistaa <strong>HTTP_USER_AGENT<\/strong> -merkkijonon n\u00e4it\u00e4 huonoja botteja vastaan. Preg_match k\u00e4ytt\u00e4\u00e4 s\u00e4\u00e4nn\u00f6llist\u00e4 lauseketta ja vaihtoehto <strong>\/i m\u00e4\u00e4ritt\u00e4\u00e4 vertailut,<\/strong> <strong>joissa<\/strong> kirjainkoolla ei ole merkityst\u00e4.<\/p>\n<p>Olen my\u00f6s huomannut lokitiedostossa, ett\u00e4 t\u00e4llaisia \u200b\u200bmerkint\u00f6j\u00e4 on melko paljon:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] &#8221;GET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011vuosip\u00e4iv\u00e4 HTTP\/1.0&quot; 200 3919 &quot; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&quot; &quot;~Mozilla\/5.0 (yhteensopiva; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~&quot;<\/p>\n<p>HTTP_USER_AGENT:st\u00e4 normaalisti luulet, ett\u00e4 se ei ole botti, mutta luulen, ett\u00e4 ne ovat. Joten n\u00e4m\u00e4 robotit ovat eritt\u00e4in huonoja. He todella antavat mit\u00e4 tahansa USER_AGENT (he voivat muuttaa t\u00e4t\u00e4 arvoa) ja ne ovat yleens\u00e4 useista IP-osoitteista (joten ei ole helppoa tunnistaa niit\u00e4 kaikkia k\u00e4ytt\u00e4m\u00e4ll\u00e4 tiettyj\u00e4 IP-alueita).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site\"><\/a><\/p>\n<p>Se n\u00e4ytt\u00e4\u00e4 toimivan yll\u00e4 olevien menetelmien j\u00e4lkeen.<\/p>\n<p>se n\u00e4ytt\u00e4\u00e4 toimivan, koska apache-lokista l\u00f6yd\u00e4n paljon n\u00e4it\u00e4<br \/>\n[Thu Jul 24 23:01:02 2014] [error] [client 61.135.189.186] asiakas, jonka palvelimen asetukset est\u00e4v\u00e4t: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[to 24. hein\u00e4kuuta 23:01:02 2014] [virhe] [asiakas 61.135.189.186] asiakas esti palvelimen m\u00e4\u00e4rityksen: \/home\/linweb09\/z\/steakovercooked. \/error<br \/>\n[Thu Jul 24 23:01:08 2014] [error] [client 61.135.189.186] asiakas esti palvelimen m\u00e4\u00e4rityksen: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs<\/p>\n<p>Ja pikavieraat ovat my\u00f6s iloisia: &quot;Joo, nyt n\u00e4ytt\u00e4\u00e4 paljon paremmalta. joten suljen t\u00e4m\u00e4n lipun. Suuri kiitos toimistasi.&quot;<\/p>\n<p>T\u00e4m\u00e4 ei kuitenkaan v\u00e4ltt\u00e4m\u00e4tt\u00e4 ole lopullinen ratkaisu&#8230; Lopulta siirr\u00e4n my\u00f6s t\u00e4m\u00e4n sivuston <a href=\"https:\/\/wordpress.mediadoma.com\/fi\/cloud-vps-on-parempi-kuin-perinteinen-vps-hosting\/\" title=\"VPS\">VPS<\/a> :lle, kuormanjakopalvelimille tai dedikoidulle palvelimelle, jotta sit\u00e4 ei poisteta t\u00e4m\u00e4n typer\u00e4n syyn takia.<\/p>\n<p>Toissap\u00e4iv\u00e4n\u00e4 luin seuraavan kappaleen, enk\u00e4 voinut olla asiasta enemp\u00e4\u00e4 samaa mielt\u00e4: Web-hosting-yrityksen <strong>EI<\/strong> pit\u00e4isi tehd\u00e4 mit\u00e4\u00e4n vahingoittaakseen verkkosivustojesi <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO<\/a> -mainetta, puhumattakaan siit\u00e4, ett\u00e4 koko sivustosi alas ilman lupaasi. Fasthostit ovat hieman yli linjan ja siksi pikahostit saivat niin paljon huonoja arvosteluja (kuten roskaa, paskaa, pakene koko el\u00e4m\u00e4ksi).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site\"><\/a><\/p>\n<p>Muuten, k\u00e4yt\u00e4n <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a> :ia, joka on yksinkertaisesti paras. VPS toimii loistavasti, ja olen jo siirt\u00e4nyt muutaman sivuston.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[719,843,1030,864],"tags":[1166],"class_list":["post-232511","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-kehittaejae","category-opetusohjelmia","category-turvallisuus","category-wordpress-5","tag-affiai-fi"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/posts\/232511","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/comments?post=232511"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/posts\/232511\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/media?parent=232511"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/categories?post=232511"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/fi\/wp-json\/wp\/v2\/tags?post=232511"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}