Computerra cum să schimbe viteza de scanare a unui site de către un robot - Yandex

Folosind o directivă specială în fișierul robots.txt, webmasterii pot schimba durata întreruperilor pe care robotul de căutare Yandex le face între cererile către server.







Folosind instrucțiunea specială de întârziere a accesării cu crawlere în fișierul robots.txt, webmasterii pot schimba durata întreruperilor pe care robotul de căutare Yandex le face între cereri către server. Acest lucru poate fi util în cazul în care "păianjenul" creează o încărcătură excesivă pe site și trebuie să se "calmeze" într-un fel.

Crawl-întârziere vă permite să setați motorul de căutare timpul minim (în secunde) între sfârșitul scanării unei pagini a site-ului și începutul indexării următorului. Pentru compatibilitatea cu robotii care nu respectă pe deplin standardul atunci când procesează un fișier robots.txt, 1. directiva privind întârzierea accesării cu crawlere trebuie adăugată grupului începând cu intrarea User-agent, imediat după linia Disallow (Allow).

De exemplu, pentru a forța un robot să ocolească fiecare pagină a unei resurse web cu un interval de timp de trei secunde, este necesar să atribuiți următoarele instrucțiuni robots.txt:







Agent-utilizator: Yandex
Crawl-întârziere: 3

Agent-utilizator: Yandex
Dezactivați: / administrator
Crawl-întârziere: 3

În ultimul exemplu, "păianjenul" Yandex nu va menține strict o pauză de trei secunde înainte de a descărca fiecare pagină a site-ului, dar va ignora și directorul Administrator 2.

"Yandex" suportă valori fracționate ale întârzierii accesării cu crawlere - de exemplu, 0,5 sau 4,5. Aceasta înseamnă că, dacă doriți, puteți controla setările robotului de căutare și ajustați viteza cu care indexează site-urile, cu o precizie de zeci de secunde.

Și ultimul. Direcția de întârziere a accesării cu crawlere poate fi aplicată tuturor robotilor de căutare folosind "*" wildcard în instrucțiunea User-agent.

1. În scopul fișierului cu numele robots.txt și unele subtilități de lucru cu el, puteți citi în acest material în rubrica RTFM. [Inapoi]

2. Unele sisteme de management al conținutului (de exemplu, Joomla) utilizează directorul Administrator pentru a stoca fișiere și scripturi care corespund funcționării panoului de control al site-ului. Din acest motiv, închiderea folderului Administrator din "păianjeni" poate fi destul de justificată. [Inapoi]







Trimiteți-le prietenilor: