Cum de a interzice indexarea paginilor unui site prin intermediul unui fișier, gestionarea unei vieți (хатошки on

Un pic de teorie

Probabil nu este un secret pentru nimeni că motoarele de căutare nu funcționează în timp real. Robotul de căutare în mod constant ocolește site-urile noi, intră în textele lor în baza de date a motorului de căutare și actualizează și resursele deja incluse în baza de date. Acesta este motivul pentru site-urile noi nu sunt disponibile imediat pentru motoarele de căutare.







De obicei, crawler-ul descoperă un nou site de către link-ul unei persoane sau ca rezultat al adăugării acestuia prin intermediul unor forme speciale de motoare de căutare (așa-numitele "addurilki", din expresia "add url" - add url).

Odată ce crawler-ul accesează site-ul, acesta solicită imediat un fișier robots.txt. Dacă nu o găsește, acționează în mod implicit. Prin urmare, un fișier robots.txt este denumit uneori un fișier de excludere pentru roboții de căutare.

Fișierul robots.txt este folosit pentru a interzice indexarea anumitor pagini și secțiuni întregi ale site-ului, precum și pentru a transfera robotului de căutare fișierul sitemap.xml (fișier harta site-ului).







Utilizând fișierul robots.txt

Vom examina fișierul robots.txt pentru exemple.

Interzicerea indexării întregului site

Pentru a interzice indexarea întregului site, este necesar să se facă următoarele rânduri în robots.txt:

Interzicerea indexării unui singur director

Înregistrarea utilizator-agent specifică ce indexare este interzisă (în loc de asterisc *, "yandex" sau "googlebot" poate fi scris aici), iar intrarea "Disallow" descrie interzicerea indexării.

User-agent: *
Dezactivați: / private /

Împiedicați indexarea tipurilor de fișiere individuale

Va fi foarte util să interziceți indexarea paginilor ca "index.php". În principiu.

Puteți face acest lucru după cum urmează:

User-agent: *
Permiteți: / $
Permiteți: /*.php$
Permiteți: /*.jpg$
Permiteți: /*.gif$
Permiteți: /*.xml$
Împiedicați: /index.php?*

Transmiterea fișierului sitemap.xml către robotul de căutare

Nu vom elabora acest dosar. Să presupunem că ați sortat acest fișier. Să arătăm una dintre modalitățile de a transfera acest fișier în motorul de căutare, și anume transferul fișierului prin robots.txt. Pentru aceasta, adăugați următoarea linie la robots.txt:

Se presupune că fișierul sitemap.xml există și este scris corect.







Trimiteți-le prietenilor: