Roboți txt pentru joomla

Desigur, motorul de căutare, dacă Yandex sau Google - complexe produse software și este, aș spune destul de „inteligent“, în ceea ce privește indexarea site-ului și căutarea informațiilor necesare. Dar, după cum știți, orice software, sau un mecanism, de fapt, nu funcționează singur, întotdeauna este necesară implicarea umană, sau pentru a configura sau pentru a controla sau de a seta anumiți parametri inițiali. Și, după cum știți, motorul de căutare nu este o excepție, și, prin urmare, cele mai bune rezultate de indexare și cel mai important lucru pentru a asigura buna indexare a fost inventat de robots.txt - fișier în care proprietarii de site-uri pot defini instrucțiuni pentru paginile de indexare.







Prin urmare, robots.txt este un fișier text special în care sunt definite instrucțiuni pentru diferite motoare de căutare pentru indexarea paginilor site-ului. În termeni simpli, acest fișier specifică ce să indice și ce nu. În mod tipic, fișierul de mai sus este situat la rădăcina site-ului de interes pentru acces rapid la motorul de căutare al robotului.

Rețineți că numele fișierului este sensibil la minuscule. Conținutul acestui dosar constă în așa-numitele directive și este destul de simplu de înțeles. O directivă este o instrucțiune, o indicație pentru un motor de căutare.

Acum, să definim ce putem "indica" motoarelor de căutare. Pagina robots.txt sunt determinate, și directoare chiar întregi, care sunt interzise la indexare, a indicat site-ul principal oglindă, intervalul de timp de încărcare de date, SiteMap calea de fișier (sitemap), etc.

Roboți txt pentru joomla

Doriți să aflați cum să creați propriul șablon pe CMS Joomla de la zero

De obicei, complet cu cele mai populare CMS disponibile și specifică de contact, un fișier robots.txt, care dezvoltatorii ca un exemplu, este instrucțiuni bine definite, prin care site-ul va funcționa normal. Joomla nu este o excepție și la rădăcina surselor veți găsi fișierul de interes:







În acest exemplu, indicăm că următoarele reguli vor fi valabile pentru absolut toate roboții motoarelor de căutare. Dacă trebuie să setați unele reguli pentru robot Yandex, ca valoarea directivei User-agent, trebuie să specificați următoarele:

Pentru Google, respectiv:

Mai mult, în fișierul este definit Directiva Interdicție, care specifică ce folder sau pagină, URL-ul pentru o anumită, interzisă de indexare. Prin urmare Tu interzice Indexarea poate următoarele pagini: conținut duplicat (dublu), pagina care conține informații, de control personale sau confidențiale sau panoul de administrare pagini, la care accesul este restricționat la anumiți utilizatori, și în cele din urmă absolut toate paginile care se bazează pe logica unui anumit site, nu ar trebui să fie disponibile pentru motoarele de căutare.

De exemplu, interzicerea indexării directorului de administrator arată astfel:

Sau interzicerea indexării întregului sit în ansamblu:

Spre deosebire de directiva Disallow, a fost inventată directiva Allow, care specifică ce pagini sau directoare au permisiunea de a fi indexate.

De fapt, tocmai am revizuit toate directivele care sunt utilizate în fișierul standard txt robots pentru jumla. Dar să ne uităm la câteva altele.

Directiva-crawl de întârziere - este utilizat pentru a determina intervalul de timp pentru injectarea unei anumite pagini de date care este definită între descărcarea de pauză, în timp ce acesta este valabil numai pentru Yandex. Astfel, prin specificarea durata de temporizare dorită, vă va descărca în mod semnificativ serverul de a utiliza ca descărcarea anumitor robot de căutare de resurse va aștepta timp de mai multe secunde, adică, așa cum este indicat în actuala directivă.

Pentru a accelera indexarea este, de asemenea, recomandat pentru a genera un site Harta (Harta site-ului), care este o listă de pagini sub formă de link-uri. În acest caz, cardul este, de asemenea, la sursa de rădăcină CMS și calea este posibil să se determine în fișierul robots.txt utilizând directiva Harta site-ului, astfel v-ar dori robotul pentru a intra în lista de pagini disponibile pe site-ul, care fac obiectul de indexare.

Și în cele din urmă. ultima directivă importantă care este foarte des utilizată în fișierele robots.txt este gazda, care este utilizată pentru motorul de căutare Yandex și determină oglinda principală a site-ului.

După cum ați văzut deja, valoarea fiecărei directive este un anumit text și în esență este o anumită cale, respectiv pentru formarea acestei valori există două simboluri de control pe care aș dori să le iau în considerare.

Simbolul "*" - indică absolut orice secvență de caractere și este foarte util dacă doriți să specificați o valoare arbitrară care merge înainte de cea specificată.

În acest exemplu, nu permitem ca site-ul dvs. să fie indexat. / En / pagină, dar nu interzice site-ul dvs. / En / pagină / unul.

Roboți txt pentru joomla

Doriți să aflați cum să creați propriul șablon pe CMS Joomla de la zero

Cele mai recente știri despre dezvoltarea IT și web pe canalul nostru de telegrame







Articole similare

Trimiteți-le prietenilor: