Ce este un crawler

Ce este un crawler. Căutați Spider

Robotul de căutare ("web spider", crawler) este un program care face parte integrantă din motorul de căutare și este proiectat să ocolească paginile internetului pentru a înregistra informații despre ele în baza de date a motorului de căutare. Prin principiul acțiunii păianjenului seamănă cu un browser normal.







Proprietarii motoarelor de căutare limitează adesea adâncimea de penetrare a păianjenului în site și dimensiunea maximă a textului scanat, astfel încât siturile prea mari nu pot fi indexate pe deplin de motorul de căutare. În plus față de păianjeni obișnuiți, există așa-numitele "ciocăneți" - roboți care "înghit" site-ul indexat pentru a determina că este disponibil.







Ordinea traverselor paginii, frecvența vizitelor, protecția împotriva loopării, precum și criteriile pentru alocarea informațiilor semnificative sunt determinate de algoritmi de căutare.

De asemenea, multe motoare de căutare oferă utilizatorului posibilitatea de a adăuga site-ul la coadă pentru indexare. De obicei, accelerează în mod semnificativ indexarea site-ului, iar în cazurile în care nu există legături externe care să ducă la site, în general este singura modalitate de a-i indica existența.

Limitați indexarea site-ului utilizând un fișier robots.txt, dar unii bots lipsiți de scrupule pot ignora prezența acestui fișier. Protecția completă împotriva indexării poate fi asigurată de alte mecanisme, cum ar fi setarea unei parole pe pagină sau solicitarea de a completa formularul de înregistrare înainte de a putea accesa conținutul.







Articole similare

Trimiteți-le prietenilor: