Roboții Google - "" pentru Google

Ștergerea unui întreg site

Pentru a elimina un site de la motoarele de căutare și a împiedica toate roboții să îl scanare în viitor, plasați un fișier robots.txt în rădăcina serverului cu următorul conținut:







User-agent: Googlebot
Nu permiteți: /

Fiecare port trebuie să aibă propriul fișier robots.txt. În special, dacă se utilizează protocoalele http și https, fiecare dintre acestea va necesita fișiere robots.txt separate. De exemplu, pentru a permite robotului de căutare Google să indexeze toate paginile http și să împiedice scanarea https, fișierele robots.txt ar trebui să arate așa.

Notă. Dacă cererea dvs. este urgentă și nu puteți aștepta următoarea accesare cu crawlere a site-ului de către Googlebot, utilizați sistemul automat de eliminare a adreselor URL. Pentru a rula acest proces automat, webmasterul trebuie să creeze mai întâi un fișier robots.txt și să îl plaseze pe site-ul corespunzător.

Dacă fișierul robots.txt rămâne în directorul rădăcină al serverului web, atunci Google nu va accesa cu crawlere site-ul sau directoarele sale. Dacă nu aveți acces la directorul rădăcină al serverului, puteți pune fișierul robots.txt la același nivel ca fișierele pe care doriți să le ștergeți. După ce faceți acest lucru și utilizați sistemul automat de ștergere a adreselor URL, site-ul va fi temporar, timp de 180 de zile, eliminat din indexul Google, indiferent dacă fișierul robots.txt este șters după procesarea solicitării. (Dacă lăsați fișierul robots.txt la același nivel, URL-ul va trebui să fie șters folosind sistemul automat la fiecare 180 de zile.)

Ștergerea unei porțiuni

Opțiunea 1. Robots.txt

Pentru a șterge directoarele sau paginile individuale ale unui site, puteți pune un fișier robots.txt în directorul rădăcină al serverului. Cum se creează un fișier robots.txt este inclus în Standardul de Excepții pentru Roboți. Când creați un fișier robots.txt, luați în considerare următoarele: Atunci când decideți ce pagini să acceseze cu crawlere pe o anumită gazdă, crawlerul Google acționează în funcție de prima intrare din fișierul robots.txt, unde parametrul User-agent începe cu cuvântul "Googlebot". Dacă nu există o astfel de înregistrare, se execută prima regulă, în care agentul utilizator este "*". În plus, Google vă permite să utilizați fișierul robots.txt mai flexibil utilizând asteriscuri. În interzicerea modelelor, simbolul "*" poate însemna orice secvență de caractere. Șablonul se poate încheia cu un "$", care denotă sfârșitul numelui.

Pentru a șterge toate paginile unui director (de exemplu, "lemuri"), adăugați următoarea intrare în fișierul robots.txt:

User-agent: Googlebot
Împiedicați: / lemuri

Pentru a șterge toate fișierele de tip specific (de exemplu, gif), adăugați următoarea intrare în fișierul robots.txt:

User-agent: Googlebot
Dezactivați: /*.gif$

Pentru a șterge pagini generate dinamic, adăugați următoarea intrare în fișierul robots.txt:

User-agent: Googlebot
Nu permiteți: / *?

Opțiunea 2. Meta etichete

Pentru a împiedica toți robotii să indexeze o pagină de site, adăugați următoarea meta-tag în secțiunea din această pagină:







Pentru a împiedica indexarea paginii numai în Googlebot și permisă de alții, utilizați următoarea etichetă:

Notă. Dacă solicitarea dvs. este urgentă și nu puteți aștepta următoarea scanare Google, utilizați sistemul automat de eliminare a adreselor URL. Pentru a rula acest proces automat, webmasterul trebuie să introducă mai întâi metaetichetele corespunzătoare în codul paginii HTML. După aceea, cataloagele vor fi temporar, timp de 180 de zile, eliminate din indexul Google, indiferent dacă ștergeți fișierul robots.txt sau etichetele meta după procesarea solicitării.

Ștergerea fragmentelor (fragmente)

Pentru a împiedica Google să afișeze fragmente din pagină, adăugați la secțiune următoarea etichetă:

Notă. Când ștergeți fragmente, paginile stocate în memoria cache sunt, de asemenea, șterse.

Notă. Dacă cererea dvs. este urgentă și nu puteți aștepta următoarea accesare crawlere a site-ului de către Googlebot, utilizați sistemul automat de eliminare a adreselor URL. Pentru a rula acest proces automat, webmasterul trebuie să introducă mai întâi metaetichetele corespunzătoare în codul HTML al paginii.

Ștergerea paginilor stocate în memoria cache

Google creează și arhivează automat un instantaneu al fiecărei pagini scanate. Prezența unor astfel de versiuni memorate în cache permite utilizatorilor finali să găsească pagini chiar dacă nu sunt disponibile (datorită unei probleme temporare pe serverul în care se află pagina). Utilizatorii văd paginile memorate în cache așa cum au fost când au fost accesate cu crawlere de către Google. În partea de sus a paginii se afișează un mesaj care arată că aceasta este o versiune stocată în memoria cache. Pentru a accesa această pagină, utilizatorul trebuie să selecteze linkul "Salvat în cache" de pe pagina cu rezultatele căutării.

Pentru a împiedica toate motoarele de căutare să afișeze acest link către site-ul dvs., adăugați la secțiune următoarea etichetă:

Pentru a împiedica afișarea linkului "Salvat în cache" numai pentru Google și restul pentru a permite, utilizați următoarea etichetă:

Notă. Această etichetă șterge numai linkul "Salvat în cache" de pe pagina corespunzătoare. Google continuă să indexeze pagina și să afișeze fragmentul acesteia.

Notă. Dacă cererea dvs. este urgentă și nu puteți aștepta următoarea accesare crawlere a site-ului de către Googlebot, utilizați sistemul automat de eliminare a adreselor URL. Pentru a rula acest proces automat, webmasterul trebuie să introducă mai întâi metaetichetele corespunzătoare în codul HTML al paginii.

Ștergerea unei imagini din Motorul de căutare Google de imagini

Pentru a șterge o imagine din indexul de imagine Google, plasați un fișier robots.txt în rădăcina serverului. (Dacă acest lucru nu este posibil, plasați-l la nivelul directorului).

Agent-utilizator: Googlebot-Image
Dezactivați: /images/sobaki.jpg

Agent-utilizator: Googlebot-Image
Nu permiteți: /

În plus, Google vă permite să utilizați fișierul robots.txt mai flexibil utilizând asteriscuri. În interzicerea modelelor, simbolul "*" poate însemna orice secvență de caractere. Șablonul se poate încheia cu un "$", care denotă sfârșitul numelui. Pentru a șterge toate fișierele de un anumit tip (de exemplu, pentru a lăsa imagini în format .jpg și a le șterge în format .gif), adăugați următoarea intrare în fișierul robots.txt:

Agent-utilizator: Googlebot-Image
Dezactivați: /*.gif$

Notă. Dacă cererea dvs. este urgentă și nu puteți aștepta următoarea accesare crawlere a site-ului de către Googlebot, utilizați sistemul automat de eliminare a adreselor URL. Pentru a rula acest proces automat, webmasterul trebuie să creeze mai întâi un fișier robots.txt și să îl plaseze pe site-ul corespunzător.

Dacă fișierul robots.txt rămâne în directorul rădăcină al serverului web, Google nu va mai accesa cu crawlere site-ul sau directoarele sale în viitor. Dacă nu aveți acces la directorul rădăcină al serverului, puteți pune fișierul robots.txt la același nivel ca fișierele pe care doriți să le ștergeți. Odată ce ați face acest lucru și va folosi o ștergere automată a URL-ului, temporar, 180 de zile vor fi șterse directoarele specificate în fișierul robots.txt din indexul Google, indiferent dacă eliminați fișierul robots.txt după procesarea solicitării. (Dacă lăsați fișierul robots.txt la același nivel, URL-ul va trebui să fie șters folosind sistemul automat la fiecare 180 de zile.)

Link-uri conexe







Articole similare

Trimiteți-le prietenilor: