{"id":232023,"date":"2023-01-20T16:07:00","date_gmt":"2023-01-20T13:07:00","guid":{"rendered":"https:\/\/wordpress.mediadoma.com\/?p=232023"},"modified":"2023-02-08T19:31:42","modified_gmt":"2023-02-08T16:31:42","slug":"zatrzymaj-wsciekle-boty-takie-jak-360spider-aby-przeszukac-moja-witryne","status":"publish","type":"post","link":"https:\/\/wordpress.mediadoma.com\/pl\/zatrzymaj-wsciekle-boty-takie-jak-360spider-aby-przeszukac-moja-witryne\/","title":{"rendered":"Zatrzymaj w\u015bciek\u0142e boty, takie jak 360Spider, aby przeszuka\u0107 moj\u0105 witryn\u0119"},"content":{"rendered":"\n<p>Moja witryna <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">steakovercooked.com<\/a> znajduje si\u0119 na jednym z serwer\u00f3w wsp\u00f3\u0142dzielonych Fasthosts. Ostatnio moja witryna by\u0142a wielokrotnie wy\u0142\u0105czana z powodu ogromnej liczby \u017c\u0105da\u0144 do mojej witryny. Pochodz\u0105 one g\u0142\u00f3wnie z robot\u00f3w indeksuj\u0105cych witryn\u0119. In\u017cynier ds. operacji IT Fasthosts Ewan MacDonald wys\u0142a\u0142 mi e-maila i powiedzia\u0142:<\/p>\n<p>Drogi Justyy<\/p>\n<p>Nie jestem pewien, co dok\u0142adnie robisz ze swoj\u0105 witryn\u0105, ale zu\u017cy\u0142e\u015b ponad 75% dost\u0119pnych proces\u00f3w Apache. Spowodowa\u0142o to ogromne problemy dla wszystkich innych klient\u00f3w serwera WWW.<\/p>\n<p>W tej chwili przeprowadzam skanowanie bezpiecze\u0144stwa Twojej witryny.<\/p>\n<p>Pami\u0119taj, \u017ce Twoja witryna zawiera 85 000, czyli 8,6 GB. Nasze warunki stanowi\u0105, \u017ce wszystkie pliki w Twojej przestrzeni internetowej musz\u0105 by\u0107 cz\u0119\u015bci\u0105 witryny, wi\u0119c czy wszystkie 85 000 plik\u00f3w s\u0105 cz\u0119\u015bci\u0105 witryny i s\u0105 dost\u0119pne za jej po\u015brednictwem? Je\u015bli nie, nale\u017cy je usun\u0105\u0107.<\/p>\n<p>Zamierzam r\u00f3wnie\u017c usun\u0105\u0107 2 foldery htdocs o zmienionej nazwie, chyba \u017ce sprzeciwisz si\u0119 temu?<\/p>\n<p>Je\u015bli Twoja witryna powoduje ten sam problem z wydajno\u015bci\u0105 podczas skanowania, wy\u0142\u0105cz\u0119 j\u0105 ponownie, dop\u00f3ki nie wyja\u015bnisz, dlaczego blokuje oko\u0142o 200 proces\u00f3w Apache.<\/p>\n<p>Z powa\u017caniem,<\/p>\n<p>Nast\u0119pnie sprawdzi\u0142em dziennik <strong>Apache2<\/strong> i znalaz\u0142em wiele z nich:<\/p>\n<p>[\u015aroda 23 lipca 21:40:21 2014] [ostrze\u017cenie] mod_fcgid: nie mo\u017cna zastosowa\u0107 slotu procesu dla \/var\/www\/fcgi\/php54-cgi<br \/>\n[\u015aroda 23 lipca 21:40:22 2014] [ostrze\u017cenie] mod_fcgid: mo\u017ce 't zastosuj slot procesu dla \/var\/www\/fcgi\/php54-cgi<br \/>\n[\u015aroda 23 lipca 21:40:30 2014] [ostrze\u017cenie] mod_fcgid: nie mo\u017cna zastosowa\u0107 slotu procesu dla \/var\/www\/fcgi\/php54-cgi<br \/>\n[ Wed Jul 23 21:40:31 2014] [ostrze\u017cenie] mod_fcgid: nie mo\u017cna zastosowa\u0107 slotu procesu dla \/var\/www\/fcgi\/php54-cgi<br \/>\n[Wed Jul 23 21:40:31 2014] [ostrze\u017cenie] mod_fcgid: can&#8217; t zastosuj slot procesu dla \/var\/www\/fcgi\/php54-cgi<br \/>\n[wed Jul 23 21:40:31 2014] [warn] mod_fcgid: nie mo\u017cna zastosowa\u0107 slotu procesu dla \/var\/www\/fcgi\/php54-cgi<\/p>\n<p>Najwyra\u017aniej wygl\u0105da na to, \u017ce 360spider do\u015b\u0107 mocno uderzy\u0142 w witryn\u0119 i oczywi\u015bcie wp\u0142ywa na inne witryny na tym samym wsp\u00f3\u0142dzielonym ho\u015bcie, i dlatego fasthosty musz\u0105 wy\u0142\u0105czy\u0107 moj\u0105 witryn\u0119.<\/p>\n<p>Problem z 360-paj\u0105kiem powr\u00f3ci\u0142 p\u00f3\u017aniej, wi\u0119c musieli ponownie wy\u0142\u0105czy\u0107 moj\u0105 witryn\u0119, dop\u00f3ki nie b\u0119d\u0119 mia\u0142 gotowego skryptu do zablokowania jej dost\u0119pu, poniewa\u017c powoduje to problemy dla innych u\u017cytkownik\u00f3w serwera.<\/p>\n<p>Przykro mi, \u017ce sprawia to k\u0142opoty innym hostom udost\u0119pniania, ale moim zdaniem lepiej by\u0142oby je zablokowa\u0107 na wy\u017cszym poziomie (np. ustawienia Apache). Wyobra\u017a sobie, \u017ce inne strony internetowe mog\u0105 napotka\u0107 ten sam problem. Zoptymalizowa\u0142em wcze\u015bniej moj\u0105 witryn\u0119, aby zmniejszy\u0107 zu\u017cycie procesora, buforuj\u0105c je w statycznych kodach HTML. ale ze wzgl\u0119du na du\u017c\u0105 liczb\u0119 stron (oko\u0142o 5000 zg\u0142oszonych w webmasterze Google), niekt\u00f3re paj\u0105ki mog\u0105 nie by\u0107 wystarczaj\u0105co sprytne, aby rozszyfrowa\u0107 duplikat. Paj\u0105ki Google s\u0105 w porz\u0105dku, poniewa\u017c mog\u0119 skonfigurowa\u0107 parametry i przestrzegaj\u0105 pliku robots.txt. Ale te w\u015bciek\u0142e paj\u0105ki (np. 360, youdao) nie do ko\u0144ca przestrzegaj\u0105 zasad indeksowania. Jedynym sposobem na ich zbanowanie jest zaznaczenie ich na czarnej li\u015bcie (ja na pewno mog\u0119 to zrobi\u0107). ale inni u\u017cytkownicy mog\u0105 napotka\u0107 ten sam problem.<\/p>\n<h2>robots.txt<\/h2>\n<p>Plik robots.txt to plik tekstowy w katalogu g\u0142\u00f3wnym witryny, kt\u00f3ry kieruje boty wyszukiwania, kt\u00f3re katalogi maj\u0105 indeksowa\u0107, a kt\u00f3re nie s\u0105 dozwolone. Ale nie wszystkie boty post\u0119puj\u0105 zgodnie z \u201einstrukcjami&quot;. Oto zasady, kt\u00f3re dodaj\u0119, aby te z\u0142e roboty odesz\u0142y.<\/p>\n<pre><code># root\nUser-agent: *\nCrawl-Delay: 1\n\nUser-agent: *\nDisallow: \/cgi-bin\/\nDisallow: \/tmp\/\n\nUser-agent: 360Spider\nDisallow: \/\n\nUser-agent: YoudaoBot\nDisallow: \/\n\nUser-agent: sogou spider\nDisallow: \/\n\nUser-agent: YisouSpider\nDisallow: \/\n\nUser-agent: LinksCrawler\nDisallow: \/\n\nUser-agent: EasouSpider\nDisallow: \/<\/code><\/pre>\n<h2>.htaccess<\/h2>\n<p>Plik <strong>.htaccess<\/strong> jest plikiem tekstowym i ukrytym w ka\u017cdym katalogu witryny. Jest u\u017cywany przez modu\u0142 re-write apache <strong>mod_rewrite<\/strong>, aby adresy URL wygl\u0105da\u0142y \u0142adniej. Mo\u017ce by\u0107 r\u00f3wnie\u017c u\u017cywany do kontrolowania tych bot\u00f3w.<\/p>\n<pre><code>&lt;IfModule mod_rewrite.c&gt;\n    RewriteEngine On\n    RewriteBase \/\n\n    RewriteCond %{REQUEST_URI} !^\/robots.txt$\n    RewriteCond %{REQUEST_URI} !^\/error.html$\n\n    RewriteCond %{HTTP_USER_AGENT} EasouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} YisouSpider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} Sogou web spider [NC]\n    RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]\n    RewriteCond %{HTTP_USER_AGENT} LinksCrawler [NC,OR]    \n    RewriteRule ^.*$ - [F,L]\n&lt;\/IfModule&gt;\n\n&lt;IfModule mod_setenvif.c&gt;\n    SetEnvIfNoCase User-Agent \"EasouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"YisouSpider\" bad_bot\n    SetEnvIfNoCase User-Agent \"LinksCrawler\" bad_bot\n    SetEnvIfNoCase User-Agent \"360Spider\" bad_bot\n    SetEnvIfNoCase User-Agent \"Sogou\" bad_bot        \n    Order Allow,Deny\n    Allow from All\n    Deny from env=bad_bot\n&lt;\/IfModule&gt;<\/code><\/pre>\n<h2>Kod PHP<\/h2>\n<p>Ze wzgl\u0119d\u00f3w bezpiecze\u0144stwa umie\u015bci\u0142em r\u00f3wnie\u017c nast\u0119puj\u0105cy kod w <strong>pliku index.php<\/strong>, kt\u00f3ry s\u0142u\u017cy do generowania r\u00f3\u017cnych stron zgodnie z parametrami adresu URL. 99% stron internetowych jest generowanych przy u\u017cyciu tego pliku indeksu.<\/p>\n<pre><code>  $agent='';\n  if (isset($_SERVER['HTTP_USER_AGENT']))\n  {\n    $agent = $_SERVER['HTTP_USER_AGENT'];\n  } \n\n  define('BADBOTS','\/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)\/i');\n\n  if (preg_match(BADBOTS, $agent)) {\n    die();\n  }  <\/code><\/pre>\n<p>Zasadniczo to, co robi powy\u017csze PHP, to sprawdzanie ci\u0105gu <strong>HTTP_USER_AGENT<\/strong> przed tymi z\u0142ymi botami. Preg_match u\u017cywa <strong>wyra\u017cenia<\/strong> regularnego, a opcja <strong>\/i<\/strong> okre\u015bla por\u00f3wnania bez uwzgl\u0119dniania wielko\u015bci liter.<\/p>\n<p>Zauwa\u017cy\u0142em te\u017c w logu, \u017ce jest sporo wpis\u00f3w takich jak ten:<br \/>\n119.188.91.121 \u2013 \u2013 [24\/Jul\/2014:22:39:51 +0100] &#8222;GET \/?charset=big5&amp;do=System.Online&amp;lang=ch&amp;page =25&amp;per=10&amp;skin=2011rocznica HTTP\/1.0&quot; 200 3919 &#8221; <a href=\"https:\/\/steakovercooked.com\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">https:\/\/steakovercooked.com\/<\/a> \u2026 \u2026&#8221; &#8222;~Mozilla\/5.0 (kompatybilna; MSIE 9.0; Windows NT 6.1; Trident\/5.0)~&#8221;<\/p>\n<p>Z HTTP_USER_AGENT zwykle my\u015blisz, \u017ce to nie jest bot, ale my\u015bl\u0119, \u017ce tak. Wi\u0119c te boty s\u0105 bardzo z\u0142e. W rzeczywisto\u015bci podadz\u0105 to, co USER_AGENT (mog\u0105 zmieni\u0107 t\u0119 warto\u015b\u0107) i zwykle pochodz\u0105 z kilku adres\u00f3w IP (wi\u0119c nie jest \u0142atwo zidentyfikowa\u0107 je wszystkie przy u\u017cyciu okre\u015blonych zakres\u00f3w adres\u00f3w IP).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9a90257.png\" alt=\"Zatrzymaj w\u015bciek\u0142e boty, takie jak 360Spider, aby przeszuka\u0107 moj\u0105 witryn\u0119\"><\/a><\/p>\n<p>Wydaje si\u0119, \u017ce dzia\u0142a po powy\u017cszych metodach.<\/p>\n<p>wygl\u0105da na to, \u017ce dzia\u0142a, poniewa\u017c w dzienniku Apache znajduj\u0119 ich wiele<br \/>\n[Czwartek 24 lipca 23:01:02 2014] [B\u0142\u0105d] [klient 61.135.189.186] klient odrzucony przez konfiguracj\u0119 serwera: \/home\/linweb09\/z\/steakovercooked. com-1048918357\/user\/htdocs\/<br \/>\n[Thu Jul 24 23:01:02 2014] [B\u0142\u0105d] [klient 61.135.189.186] klient odrzucony przez konfiguracj\u0119 serwera: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs \/error<br \/>\n[Czwartek 24 lipca 23:01:08 2014] [b\u0142\u0105d] [klient 61.135.189.186] klient odrzucony przez konfiguracj\u0119 serwera: \/home\/linweb09\/z\/steakovercooked.com-1048918357\/user\/htdocs\/<\/p>\n<p>Fasthosty te\u017c si\u0119 ciesz\u0105: \u201eTak, teraz wygl\u0105da znacznie lepiej. wi\u0119c zamkn\u0119 ten bilet. Wielkie dzi\u0119ki za twoj\u0105 akcj\u0119.&#8221;<\/p>\n<p>Mo\u017ce to jednak nie by\u0107 ostateczne rozwi\u0105zanie\u2026 Docelowo przenios\u0119 te\u017c t\u0119 stron\u0119 na <a href=\"https:\/\/wordpress.mediadoma.com\/pl\/cloud-vps-jest-lepszy-niz-tradycyjny-hosting-vps\/\" title=\"VPS\">VPS<\/a>, serwery r\u00f3wnowa\u017c\u0105ce obci\u0105\u017cenie lub serwer dedykowany, aby nie zosta\u0142a z tego g\u0142upia zerwana.<\/p>\n<p>Kt\u00f3rego\u015b dnia przeczyta\u0142em nast\u0119puj\u0105cy akapit i nie mog\u0142em si\u0119 z tym bardziej zgodzi\u0107: Firma hostingowa <strong>NIE<\/strong> powinna robi\u0107 niczego, co mog\u0142oby zaszkodzi\u0107 reputacji <a href=\"https:\/\/helloacm.com\/how-to-improve-seo-by-noindexing-attachment-and-pagination-in-wordpress\/\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">SEO<\/a> Twojej witryny, nie wspominaj\u0105c o tym, \u017ce ca\u0142a witryna zostanie wy\u0142\u0105czona bez Twojej zgody. Fasthosts jest daleko poza granicami i dlatego fasthosts ma tak wiele z\u0142ych recenzji (co\u015b w rodzaju bzdury, bzdury, uciec na ca\u0142e \u017cycie).<\/p>\n<p><a href=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" data-rel=\"lightbox\"><img decoding=\"async\" class=\"SDStudio-light-box-enable SDStudio-editor-tools-md-imp\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Zatrzymaj w\u015bciek\u0142e boty, takie jak 360Spider, aby przeszuka\u0107 moj\u0105 witryn\u0119\"><\/a><\/p>\n<p>Przy okazji u\u017cywam <a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external external_icon\">QuickHostUK<\/a>, kt\u00f3ry jest po prostu najlepszy. VPS dzia\u0142a \u015bwietnie i przenios\u0142em ju\u017c kilka witryn.<\/p>\n<p><a href=\"https:\/\/helloacm.com\/out\/quickhost\" target=\"_blank\" rel=\"noopener nofollow\" class=\"external\"><img decoding=\"async\" src=\"https:\/\/wordpress.mediadoma.com\/wp-content\/uploads\/2022\/01\/post-156542-61e5be9c1782e.jpg\" alt=\"Zatrzymaj w\u015bciek\u0142e boty, takie jak 360Spider, aby przeszuka\u0107 moj\u0105 witryn\u0119\" \/><\/a><\/p>\n<p><div id=\"PostUnique_PostSource\" style=\"padding-top: 50px\">\u0179r\u00f3d\u0142o nagrywania:  <a target=\"_blank\" rel=\"noopener nofollow\" href=\"\/\/helloacm.com\" class=\"external external_icon\">helloacm.com<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Zatrzymaj w\u015bciek\u0142e boty, takie jak 360Spider, aby przeszuka\u0107 moj\u0105 witryn\u0119<\/p>\n","protected":false},"author":1,"featured_media":224493,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","_wp_rev_ctl_limit":""},"categories":[1032,721,845,866],"tags":[1169],"class_list":["post-232023","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-bezpieczenstwo","category-deweloper","category-samouczki","category-wordpress-7","tag-affiai-pl"],"_links":{"self":[{"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/posts\/232023","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/comments?post=232023"}],"version-history":[{"count":0,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/posts\/232023\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/media\/224493"}],"wp:attachment":[{"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/media?parent=232023"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/categories?post=232023"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/wordpress.mediadoma.com\/pl\/wp-json\/wp\/v2\/tags?post=232023"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}