Cum de a reduce încărcarea pe server de la motoarele de căutare

Cum de a reduce sarcina pe serverul creat de roboți de căutare

Indexarea în motoarele de căutare este o parte importantă a promovării site-ului. Pe măsură ce site-ul se dezvoltă, numărul de roboți de căutare (abreviat în calitate de bots), care vizitează site-ul crește, de asemenea, pentru a indexa paginile noi sau modificate ale site-ului și a le adăuga la baza lor de date. Acest lucru este bun pentru proprietarii de site-uri, pentru că indexarea optimă a motoarelor de căutare ca urmare a creșterii traficului către site. Dar acest lucru poate provoca și probleme cu gazda. De ce? Vă explicăm. Dacă pe site-ul dvs. există 5 pagini, indexarea trece rapid și fără durere. Și dacă sute sau mii? Dacă vă uitați la statisticile site-urilor utilizatorilor noștri, puteți vedea că majoritatea site-urilor vizitează o zi mai mult de o mie de roboți. Adică încărcarea de pe server este creată nu numai de către utilizatori (care nu pot fi o mulțime de site nou creat), ci și de roboți.







Există mai multe modalități de a reduce încărcarea inutilă de la motoarele de căutare.

Metoda 1: Fișierul robots.txt

Fișierul robots.txt este un fișier care conține instrucțiuni pentru motoarele de căutare. Acesta este un fișier text obișnuit cu comenzi, decorate într-un mod special. Acesta este situat în dosarul rădăcină al site-ului dvs. Mai mult - wikipedia.org/wiki/Robots.txt

Un fișier robots.txt gol necesită permisiunea de a indexa întregul site, ca în cazul în care crawlerul a văzut erori în fișier.

Directiva Ghid utilizator indică la care robot se aplică următoarele cerințe. Fiecare bot de căutare are propriul său nume unic. Lista celor mai frecvente roboți de căutare, cele mai cunoscute motoare de căutare:

  • Google (www.google.ro) - Googlebot
  • Yahoo! (www.yahoo.com) - Slurp (sau Yahoo! Slurp)
  • MSN (www.msn.com) - MSNBot
  • AOL (www.aol.com) - Slurp
  • Live (www.live.com) - MSNBot
  • Adresați-vă (www.ask.com) - Teoma
  • Alexa (www.alexa.com) - ia_archiver
  • AltaVista (www.altavista.com) - Scooter
  • Lycos (www.lycos.com) - Lycos
  • Yandex (www.ya.ru) - Yandex
  • Mail.ru - Mail.Ru
  • Rambler (www.rambler.ru) - StackRambler
  • Aport (www.aport.ru) - Aport
  • Webalta (www.webalta.ru) - WebAlta (WebAlta Crawler / 2.0)






Motoarele de căutare mari au, de asemenea, boti separați pentru indexarea știrilor, fotografiilor, blogurilor etc. care vă permite să faceți chiar și o reglare mai fină.

Dezactivați -înțeles tuturor bots fără excepție, o comandă care interzice indexarea unui anumit director al site-ului (fișier, grup de fișiere). Permite - permite indexarea site-ului (director).

Parametrii comenzii Disallow sunt specificați ca măști. Câteva exemple simple:

  1. Să presupunem că există un forum pe site, care este localizat în directorul phpbb. Următoarele directive interzic indexarea forumului pentru toate motoarele de căutare:
    User-Agent: *
    Dezactivați: / phpbb
  2. Următorul cod pentru fișierul robots.txt împiedică robotul Yahoo să indexeze site-ul:
    Agent-utilizator: Slurp
    Disallow:
  3. Puteți utiliza link-ul Permiteți-Dezactivați să fie inclus în indexul de conținut în directoarele indexate. În următorul exemplu, numai un singur director "forindex" va fi deschis pentru indexarea din tot ceea ce se află în dosarul "img": User-agent: *
    Împiedicați: / img /
    Permiteți: / img / forindex /
  4. Parametrul Crawl-delay determină robotul de căutare să încarce paginile site-ului tău cu un interval de cel puțin 10 secunde, cu alte cuvinte, doar pauză în timp ce indexează paginile site-ului tău. Și site-ul dvs. este indexat liniștit în sarcina permisă. Poți schimba intervalul la discreția ta, făcându-l mai mare sau mai mic.
    User-agent: *
    Crawl-delay: 10

Metoda 2: Metablocul roboților

Meta tag-ul roboților controlează indexarea unei anumite pagini web.

Metoda 3. Fișierul .htaccess

Nu întotdeauna și nu toți roboții citesc fișierul robots.txt, nu întotdeauna și nu toate execută interdicțiile prescrise acolo. În acest caz, puteți bloca roboții la nivel de server, fără a da nici măcar acces la site. Acest lucru se poate face atât cu ajutorul utilizatorului, cât și cu ajutorul IP.

Firește, trebuie să fiți sigur că veți bloca numai obiectele inutile. Manual de utilizare pentru .htaccess.

Înregistrați domeniul







Articole similare

Trimiteți-le prietenilor: