✅ WEB- ja WordPress -uutiset, -teemat, -laajennukset. Täällä jaamme vinkkejä ja parhaita verkkosivustoratkaisuja.

Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site

7

Verkkosivustoni steakovercooked.com on ollut yhdellä jaetuista isäntäpalvelimista. Viime aikoina sivustoni on poistettu käytöstä monta kertaa, koska sivustolleni on tullut valtava määrä pyyntöjä. Nämä tulevat pääasiassa sivustoa indeksoivista roboteista. Fasthostien IT-operaatioinsinööri Ewan MacDonald lähetti minulle sähköpostia ja sanoi:

Rakas justyy

En ole varma, mitä teet sivustollasi tarkalleen, mutta olet käyttänyt yli 75 % käytettävissä olevista Apache-prosesseista. Tämä on aiheuttanut valtavia ongelmia kaikille muille verkkopalvelimen asiakkaille.

Suoritan tällä hetkellä sivustosi suojausskannausta.

Huomaa, että sivustollasi on 85 000, mikä vastaa 8,6 Gt. Ehtojen mukaan kaikkien verkkotilasi tiedostojen on oltava osa verkkosivustoa, joten ovatko kaikki 85 000 tiedostoa osa sivustoa ja ovatko ne käytettävissä sivuston kautta? Jos ei, ne on poistettava.

Aion myös poistaa 2 uudelleennimettyä htdocs-kansiota, ellet vastusta?

Jos sivustosi aiheuttaa saman suorituskykyongelman tarkistuksen aikana, siirrän sen uudelleen offline-tilaan, kunnes voit selittää, miksi se sitoo noin 200 Apache-prosessia.

Parhain terveisin,

Sitten tarkistin apache2 – lokin ja löysin paljon näitä:

[Ke 23. heinäkuuta 21:40:21 2014] [varoita] mod_fcgid: ei voi käyttää prosessipaikkaa /var/www/fcgi/php54-cgi
[Ke 23. heinäkuuta 21:40:22 2014] [varoita] mod_fcgid: voi ‘älä käytä prosessipaikkaa /var/www/fcgi/php54-cgi
[Ke 23. heinäkuuta 21:40:30 2014] [varoita] mod_fcgid: ei voi hakea prosessipaikkaa /var/www/fcgi/php54-cgi
[ ke 23. heinäkuuta 21:40:31 2014] [varoita] mod_fcgid: ei voi käyttää prosessipaikkaa /var/www/fcgi/php54-cgi
[Ke 23. heinäkuuta 21:40:31 2014] [varoittaa] mod_fcgid: voi’ t käytä prosessipaikkaa tiedostolle /var/www/fcgi/php54-cgi
[Ke 23. heinäkuuta 21:40:31 2014] [varoita] mod_fcgid: ei voi hakea prosessipaikkaa tiedostolle /var/www/fcgi/php54-cgi

Ilmeisesti näyttää siltä, ​​​​että 360spider osui sivustoon melko voimakkaasti ja se vaikuttaa selvästi muihin saman jaetun isännän verkkosivustoihin, ja siksi pikapalveluntarjoajien on poistettava sivustoni.

360spider-ongelma on palannut myöhemmin, joten heidän on täytynyt poistaa sivustoni käytöstä uudelleen, kunnes minulla on valmiina komentosarja, joka estää sen pääsyn, koska se aiheuttaa ongelmia muille palvelimen käyttäjille.

Olen pahoillani, että tämä aiheuttaa ongelmia muille jaon isännille, mutta mielestäni saattaa olla parempi estää ne käyttämällä korkeampaa tasoa (esim. apache-asetukset). Kuvittele, että kaikki muut sivustot voivat kohdata saman ongelman. Olen optimoinut verkkosivustoni aiemmin vähentääkseni suorittimen käyttöä tallentamalla ne staattisiin HTML-tiedostoihin. mutta johtuen melko monista sivuista (noin 5000 raportoitu google webmaster), jotkut hämähäkit eivät ehkä ole tarpeeksi fiksuja selvittää kaksoiskappale. Google-hämähäkit ovat kunnossa, koska voin määrittää parametrit ja ne tottelevat robots.txt-tiedostoa. Mutta nämä vihaiset hämähäkit (esim. 360, youdao) eivät itse asiassa noudata indeksointisääntöjä. Ainoa tapa kieltää heidät on merkitä ne mustalle listalle (minä voin tehdä sen varmasti). mutta muut käyttäjät voivat kohdata saman ongelman.

robots.txt

Robots.txt on verkkosivuston juuren alla oleva tekstitiedosto, joka ohjaa hakubotit, mitkä hakemistot indeksoidaan ja mitkä eivät ole sallittuja. Mutta kaikki robotit eivät noudata "ohjeita". Tässä ovat säännöt, jotka lisään kertoakseni näiden huonojen robottien katoamisesta.

# root User-agent: * Crawl-Delay: 1 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ User-agent: 360Spider Disallow: / User-agent: YoudaoBot Disallow: / User-agent: sogou spider Disallow: / User-agent: YisouSpider Disallow: / User-agent: LinksCrawler Disallow: / User-agent: EasouSpider Disallow: /

.htaccess

Tiedosto .htaccess on teksti- ja piilotettu tiedosto jokaisessa verkkosivuston hakemistossa. Apachen uudelleenkirjoitusmoduuli mod_rewrite käyttää sitä saadakseen URL-osoitteet näyttämään kauniilta. Sitä voidaan käyttää myös näiden robottien ohjaamiseen.

PHP koodi

Turvallisuussyistä olen myös lisännyt seuraavan koodin hakemistoon index.php, jota käytetään luomaan erilaisia ​​sivuja URL-parametrien mukaan. 99 % verkkosivustojen sivuista luodaan tämän hakemistotiedoston avulla.

$agent=''; if (isset($_SERVER['HTTP_USER_AGENT'])) { $agent = $_SERVER['HTTP_USER_AGENT']; } define('BADBOTS','/(yisouspider|easouspider|yisou|youdaobot|yodao|360|linkscrawler|soguo)/i'); if (preg_match(BADBOTS, $agent)) { die(); }

Periaatteessa yllä oleva PHP tarkistaa HTTP_USER_AGENT -merkkijonon näitä huonoja botteja vastaan. Preg_match käyttää säännöllistä lauseketta ja vaihtoehto /i määrittää vertailut, joissa kirjainkoolla ei ole merkitystä.

Olen myös huomannut lokitiedostossa, että tällaisia ​​merkintöjä on melko paljon:
119.188.91.121 – – [24/Jul/2014:22:39:51 +0100] “GET /?charset=big5&do=System.Online&lang=ch&page =25&per=10&skin=2011vuosipäivä HTTP/1.0" 200 3919 " https://steakovercooked.com/ … …" "~Mozilla/5.0 (yhteensopiva; MSIE 9.0; Windows NT 6.1; Trident/5.0)~"

HTTP_USER_AGENT:stä normaalisti luulet, että se ei ole botti, mutta luulen, että ne ovat. Joten nämä robotit ovat erittäin huonoja. He todella antavat mitä tahansa USER_AGENT (he voivat muuttaa tätä arvoa) ja ne ovat yleensä useista IP-osoitteista (joten ei ole helppoa tunnistaa niitä kaikkia käyttämällä tiettyjä IP-alueita).

Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site

Se näyttää toimivan yllä olevien menetelmien jälkeen.

se näyttää toimivan, koska apache-lokista löydän paljon näitä
[Thu Jul 24 23:01:02 2014] [error] [client 61.135.189.186] asiakas, jonka palvelimen asetukset estävät: /home/linweb09/z/steakovercooked. com-1048918357/user/htdocs/
[to 24. heinäkuuta 23:01:02 2014] [virhe] [asiakas 61.135.189.186] asiakas esti palvelimen määrityksen: /home/linweb09/z/steakovercooked. /error
[Thu Jul 24 23:01:08 2014] [error] [client 61.135.189.186] asiakas esti palvelimen määrityksen: /home/linweb09/z/steakovercooked.com-1048918357/user/htdocs

Ja pikavieraat ovat myös iloisia: "Joo, nyt näyttää paljon paremmalta. joten suljen tämän lipun. Suuri kiitos toimistasi."

Tämä ei kuitenkaan välttämättä ole lopullinen ratkaisu… Lopulta siirrän myös tämän sivuston VPS :lle, kuormanjakopalvelimille tai dedikoidulle palvelimelle, jotta sitä ei poisteta tämän typerän syyn takia.

Toissapäivänä luin seuraavan kappaleen, enkä voinut olla asiasta enempää samaa mieltä: Web-hosting-yrityksen EI pitäisi tehdä mitään vahingoittaakseen verkkosivustojesi SEO -mainetta, puhumattakaan siitä, että koko sivustosi alas ilman lupaasi. Fasthostit ovat hieman yli linjan ja siksi pikahostit saivat niin paljon huonoja arvosteluja (kuten roskaa, paskaa, pakene koko elämäksi).

Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site

Muuten, käytän QuickHostUK :ia, joka on yksinkertaisesti paras. VPS toimii loistavasti, ja olen jo siirtänyt muutaman sivuston.

Lopeta vihaiset robotit, kuten 360Spider to Crawel My Site

Tämä verkkosivusto käyttää evästeitä parantaakseen käyttökokemustasi. Oletamme, että olet kunnossa, mutta voit halutessasi kieltäytyä. Hyväksyä Lisätietoja