Modificarea corectă a fișierului - articolele mele - catalogul articolelor

Formatarea corectă a unui fișier robots.txt

Acest fișier are propriul format special și conține mai multe intrări. Fiecare înregistrare, la rândul său, are două câmpuri: prima conține o linie cu numele aplicației client, cunoscută sub numele de utilizator-agent. precum și câteva linii cu directive de tip

Șirul User-agent - aici este numele robotului. De exemplu:

Caracterul de substituție este potrivit pentru accesarea simultană a tuturor roboților "*":

Jurnalurile serverului dvs. web salvează, de obicei, numele roboților. Pentru a le vedea, selectați solicitările care se adresează exclusiv fișierului robots.txt. De asemenea, rețineți că majoritatea indexatoarelor de păianjen au nume scurte.

câmp Disallow

În partea a doua a înregistrării transmise, se blochează linii. Sunt incluse aici directivele pentru un anumit robot. Cu ajutorul lor, robotul poate afla care fișiere și / sau directoare este interzis să indice. De exemplu, următoarea directivă nu permite păianjenilor să indexeze fișierul email.htm:

Directiva poate include și numele catalogului

O directivă de acest tip nu permite păianjenilor să indexeze directorul "cgi-bin".

Încălcarea poate conține, de asemenea, metacaractere, conform standardelor, directiva / bob va fi închisă de la păianjeni /bob.html și /bob/index.html.

În cazul unei directive goale Disallow, robotul va indexa în liniște toate fișierele. Fiecare câmp User-agent trebuie să conțină cel puțin o directivă Disallow. Aceasta se face astfel încât fișierul robots.txt să fie corect recunoscut. Complet robots.txt gol este de fapt același cu absența unui fișier.

Spațiul de la începutul liniei este permis în principiu, dar este mai bine să se abțină de la ea

Nu permiteți: bob #comment

Următoarea directivă este concepută pentru a permite indexarea tuturor partițiilor, deoarece simbolul de substituție utilizat deja "*" este folosit aici.

User-agent: *
Disallow:

Și această directivă interzice complet indexarea:

User-agent: *
Nu permiteți: /

Directoarele "cgi-bin" și "images" sunt închise pentru indexare:

User-agent: *
Închideți: / cgi-bin /
Nu permiteți: / images /

Robotul Roverdog nu ar trebui să acceseze niciunul din directoarele de servere:

Agent-agent: Roverdog
Nu permiteți: /

Google robot Googlebot nu ar trebui să indexeze fișierul cheese.htm:

Agent-utilizator: googlebot
Împiedicați: cheese.htm

Exemple mai complexe de gestionare a indexării sau un exemplu de fișier robots.txt existent pot fi văzute pe multe site-uri mari, după cum urmează:

Cum se găsește un robots.txt specific?

Potrivit statisticilor, aproximativ 5% din toate robots.txt sunt făcute incorect sau cu erori, iar 2% din robotul de fișiere nu pot înțelege deloc, deoarece numărul de erori depășește admisibilitatea.

Iată o listă cu cele mai frecvente erori la crearea robots.txt:

Sintaxă inversată
Această eroare este foarte frecventă:

User-agent: *
Nu permiteți: scuter

Aici este opțiunea corectă:

Agent-utilizator: scooter
Nu permiteți: *

Mai mult de o direcție Disallow în șir

Dezactivați: / css / / cgi-bin / / images /

Fiecare păianjen poate înțelege această directivă în felul său. Unele dintre păianjeni vor ignora spațiile și nu vor indexa directorul / css // cgi-bin // images /. Spiderul poate indexa și un singur director (/ images / or / css /), lăsând restul neconfirmat.

Iată un exemplu de sintaxă corectă:

Dezactivați: / css /
Închideți: / cgi-bin /
Nu permiteți: / images /

Scrierea unei linii în format DOS

Uneori, fișierul robots.txt este editat în format DOS. Deși mulți păianjeni au învățat deja să "înțeleagă" această greșeală obișnuită, merită încă să monitorizăm absența acesteia. Cel mai bine este să faceți orice ajustare a robots.txt pe UNIX. Descărcarea se face în modul ASCII. Majoritatea clienților FTP pentru încărcarea fișierelor pe server au deja opțiunile corespunzătoare pentru traducerea corectă a caracterelor șir din formatul DOS în format UNIX. Dar, din păcate, nu toată lumea poate face acest lucru.

Prin noile standarde, poți scrie și astfel:

Dezactivați: / cgi-bin / #Acest lucru interzice roboții din cgi-bin

Spații de la începutul liniei

Spațiile nu sunt marcate în standarde, dar acest lucru este considerat un stil rău. De asemenea, nimeni nu va da o garanție că sistemul o va face bine

Redirecționați către o altă pagină cu eroarea 404

Adesea, atunci când o eroare 404 (fișier nu a fost găsit), vi se poate da o pagină specială, cum ar fi 404.html. În acest caz, nu se efectuează trecerea la pagina principală a site-ului. Cu această opțiune, robotul nu poate înțelege că fișierul robots.txt pur și simplu nu există, ci o html-pagină cu un anumit conținut pentru el. În principiu, acest lucru nu trebuie să cauzeze eșecuri, dar, totuși, orice este posibil. Este greu de spus modul în care robotul va înțelege un fișier html similar. Se poate întâmpla ca întreaga pagină să fie recunoscută ca robots.txt. Pentru a evita acest lucru, puneți robots.txt în directorul rădăcină, chiar dacă fișierul este gol.

Cum ați face dacă ați fi un roburlurp și ați întâlnit aceste directive?

User-agent: *
Nu permiteți: /
#
Agent-utilizator: slurp
Disallow:

În timp ce prima directivă interzice tuturor robotilor să indexeze site-ul, directiva care o urmărește permite slurp. Ce acțiune este necesară ca rezultat al slurpului. Este posibil ca roboții să înțeleagă greșit aceste linii directoare. În această situație, slurp-ul ar trebui să indexeze întregul site, în timp ce ceilalți roboți ar trebui să-l ignore complet.

Numărul mare al tuturor literelor este un fișier incorect:

UTILIZATOR-AGENT: EXCITE
Disallow:

Deși registrul de litere din robots.txt nu are importanță cardinală, dar în numele directoarelor, precum și al fișierelor, registrul este important. Cel mai bine este să scrieți în majusculă numai primele litere din cuvintele "Utilizator" și "Dezactivare".

Lista tuturor fișierelor din director

Dezactivați: /AL/Alabama.html
Dezactivați: /AL/AR.html
Dezactivați: /Az/AZ.html
Dezactivați: /Az/bali.html
Dezactivați: /Az/bed-breakfast.html

În schimb, puteți scrie ceva într-un mod diferit:

Dezactivați: / AL
Nu permiteți: / Az

Nu uitați, slash-ul inițial indică directorul. De fapt, nu vă este interzis să listați două sau trei fișiere, dar vorbim despre stil. Un astfel de exemplu a fost văzut într-un fișier robots.txt care cântărește peste 400 kilobyte, cu o mențiune de peste 4000 de fișiere! Se poate presupune că mulți roboți păianjeni au decis să nu vină la acest site din nou, decât după ce au văzut un astfel de dosar.

Există o directivă Disallow și numai aceasta!

Nu există nicio directivă. Acest exemplu este incorect:

Agent-agent: Spot
Nu permiteți: / john /
permite: / jane /

Iată un exemplu de umplere corectă:

Agent-agent: Spot
Nu permiteți: / john /
Disallow:

Slash-ul de deschidere este nevalid

Cum poate un robot spider să recunoască această directivă:

Agent-agent: Spot
Nu permiteți: John

Standardele spun că robot.txt interzice indexarea fișierului "john" și directorul john ". Dar dacă utilizați o bară, robotul va putea să distingă fișierul de director.

Unii oameni încearcă să scrie cuvinte cheie pentru site-ul lor în fișierul robots.txt, care, în general, nu are sens.

Uneori erau fișiere robots.txt, făcute ca html-documente. Nu uitați că nu aveți nevoie să creați robots.txt în FrontPage.

Server configurat incorect

Cum poate un server web să emită în mod neașteptat un fișier binar într-o cerere robots.txt? Acest lucru se întâmplă de obicei atunci când serverul dvs. Web are setări greșite sau ați încărcat incorect fișierul pe server.

După descărcarea fișierului robots.txt pe server, trebuie verificat. Este suficient să faceți o solicitare în browserul dvs.:

Acest lucru este suficient pentru a verifica.

Particularitatea serverului Google este că poate suporta expresii regulate în directive. Acest lucru face posibilă interzicerea indexării fișierelor, fiind ghidată de extensiile acestora.

Agent-utilizator: googlebot
Nu permiteți: * .cgi

Utilizați câmpul agent-agent pentru a specifica numele "googlebot". În acest caz, alți păianjeni, cel mai probabil, nu vor înțelege directiva.

Această etichetă va fi, de asemenea, utilă pentru cei care nu au acces la directorul rădăcină al serverului robots.txt și, prin urmare, nu pot face modificări.

Astfel de motoare de căutare ca Inktomi înțeleg pe deplin meta-tag-ul roboților. Inktomi va trece prin toate paginile site-ului dvs. în cazul în care valoarea etichetei specificate va fi "index, follow".

Formatul etichetei metazoarelor Roboți
Meta-tag-ul roboților trebuie plasat în eticheta documentului html. Acesta este un format simplu (cazul literelor nu este important):

...

Valorile tag-urilor robotilor

Această etichetă meta poate avea maximum patru valori de conținut:

index, noindex, urma, nofollow

Valorile a mai mult de unu sunt separate prin virgule.

Pentru astăzi, avem următoarele valori:

Directiva INDEX instruiește robotul să indexeze pagina.

Directiva FOLLOW permite păianjenului să știe că poate fi indexat pe această pagină. Puteți citi într-o serie de surse că, în absența unor astfel de valori, roboții de căutare acționează ca în cazul directivelor INDEX și FOLLOW. Din păcate, serverul de căutare Inktomi va înțelege acest lucru ca fiind "index, nofollow".

Directivele globale sunt după cum urmează:

Indicați toate = INDEX, FOLLOW

Nu indice nimic = NOINDEX, NOFOLLOW

Exemple de meta tag-uri roboți

Articole similare

Pagina anterioară

Pagina următoare

Modificarea corectă a fișierului - articolele mele - catalogul articolelor - pentru a promova site-ul

Articole similare

Trimiteți-le prietenilor: