Compunem site - ul corect pentru d - turboportal

Compunem site - ul corect pentru d - turboportal

Buna ziua, dragi webmasteri incepatori. Discursul din articolul de astăzi se va referi la modul de a crea Robots.txt potrivit pe site-ul dvs. Dle, astfel încât motoarele de căutare să indice exact acele pagini ale site-ului pe care doriți să le vedeți în indexul motoarelor de căutare. Robots.txt vă permite să direcționați corect motoarele de căutare pentru un curs dat, ceea ce va îmbunătăți indexarea site-ului și va interzice indexarea acelor pagini ale site-ului Dle care nu ar trebui să fie disponibile public. Motoarele de căutare indexează tot ce le oferă webmasterul și le indexează. Doar webmasterul are dreptul să interzică indexarea sistemelor de căutare. Doar despre ce să interzică și ce să permită indexarea motoarelor de căutare și care vor fi discutate în acest articol.








În legătură cu cele mai recente scandaluri cu motorul de căutare Yandex, care a oferit acces public la informații confidențiale despre utilizatorii de magazine și mesaje SMS, Yandex a dat recomandări webmasterilor pe Robots.txt, care vizează prevenirea unor astfel de incidente. Vina pentru tot acest hype stăteau pe webmasterii care nu au compilat corect Robots.txt, iar motorul de căutare a indexat tot ce nu a fost interzis în Robots.txt. În legătură cu ceea ce trebuie, de asemenea, să știți cum să creați în mod corespunzător Robots.txt pentru site-ul dvs. Dle, astfel încât în ​​indexul motoarelor de căutare să existe paginile necesare ale site-ului dvs. Dle.

Reguli generale pentru compilarea Robots.txt pentru motoarele de căutare

Directiva „gazdă“ este conceput pentru lipirea de pagini cu „www“ sau fără „www“, motorul de cautare in timp lipite sus „www“, pagina sau fără „www“. Această directivă specifică calea corectă către site, în urma căreia motorul de căutare va afișa doar pagini cu index "www" sau fără "www". Ar trebui să fie conștienți de faptul că directiva „gazdă“ ar trebui să fie prescris numai imediat după „Disallow“ directivă, în caz contrar motorul de căutare nu va detecta ca o încleiere directivă.







Directiva "Sitemap" specifică calea spre harta site-ului în format XML, astfel încât motorul de căutare să poată cunoaște calea către harta site-ului în format XML, pentru formarea ulterioară a sesiunii de descărcare.

Standardul Robots.txt nu prevede utilizarea expresiilor regulate ("*" și "$") pentru a exclude paginile prin directiva "Disallow:". Unele expresii regulate, precum "*" (care înseamnă orice caracter și simbol) și "$" (înseamnă sfârșitul liniei) sunt utilizate de Yandex și Google. Pentru site-urile în limba rusă, puteți utiliza construcții de pagină de excludere utilizând câteva expresii regulate.

Realizarea Robots.txt-ului potrivit pentru site-ul Dle


Pentru a crea dreptul de Robots.txt, trebuie să aveți o idee care pagini nu ar trebui indexate. De obicei, pentru Dle, acest lucru este de importanță secundară (profilul utilizatorului, dosare temporare, feedback, tag cloud, pagina de căutare etc.). Robots.txt pentru site-uri în limba rusă poate fi făcut pentru toate motoarele de căutare dintr-o dată, deoarece standardele Robots.txt Yandex și Google sunt aproape identice. Iată o imagine aproximativă a textului Robots.txt, care exclude paginile secundare ale site-ului Dle:

Semnul "*" (asterisc) înseamnă orice caracter sau simbol din șir, iar semnul "$" (dolar) indică sfârșitul liniei și faptul că după acest semn nu trebuie să rămână nimic. Dacă specificați directiva "Disallow: / tags" în Robots.txt (fără a doua coloană), aceasta va fi echivalentă cu constructul "Disallow: / tags *", care poate exclude pagini, atât nori de etichetare, cât și pagini de știri în URL care va include cuvântul "etichete". Este foarte important să precizați exact apariția cuvântului în designul adresei URL și să fiți foarte atent să nu interzicați indexarea paginilor din știrile site-ului dvs.

Ștergeți paginile indexate ale site-ului Dle


Dacă motorul de căutare indexat deja nu este de dorit pentru această pagină, atunci puteți să-l ștergeți cu ușurință în Google sau Yandex utilizând serviciile pentru webmasteri. Pentru Google, acesta este "Instrumentele Google pentru webmasteri -> Configurarea site-ului -> Scanner Access -> Delete URL", iar pentru Yandex există o pagină specială care șterge paginile site-ului - Remove Url from Yandex. Înainte de a șterge paginile site-ului, trebuie să configurați Robots.txt astfel încât motoarele de căutare să nu le poată indexa în viitor.







Articole similare

Trimiteți-le prietenilor: