Cum se scrie o arhivă a robotului - un forum despre marketingul pe internet

Ce ar trebui să facă un robot?
Robotul ar trebui să indexeze site-uri. Am câteva sugestii pe această temă.

1.2 Înregistrați toate cuvintele pe care le puteți găsi. Pentru numărul de cuvinte






continuitate continuă a simbolurilor valide. Este permis să ia în considerare alfabetul englez, numere, alfabetul rus și unele speciale. semne (de exemplu liniuțe). Ie chiar "a", "but" sau "varumpic-strivomnlunns" numărătoare pentru cuvinte.

xm aș recomanda următoarea structură a bazei de date (mai bine că a fost relațională, dar este posibilă și fără ea):

tabelul dicționar:
id (index) | cuvânt (șir)







tabelul "pagini":
id (index) | URL (șir) | expirare (data) vizitat (boolean)

tabelul "cuvinte" (principalele):
id (index) | word_id (index din "dicționar") page_id (index de la
"pagini") număr (număr întreg)

Să presupunem că a fost calculată mai jos în tabelul "dicționar"
au acumulat 450.000 de înregistrări. Să presupunem, de pe site-ul srednestatichticheskom este de 1.000 de pagini și pe fiecare pagină o medie de 500 de cuvinte non-repetitive. astfel obținem că pentru fiecare site obținem 500000 de intrări în tabelul "cuvinte". Aceasta este o sarcină serioasă, dar pentru indexarea numai site-ul dvs. este destul de fezabil. De asemenea, puteți tăia interjecții utilizate în mod obișnuit, ceea ce ar constitui 10-30% din tipul de sarcină „dar“, „o“, etc. Pentru a face acest lucru, ar fi necesar să adăugați câmpul "interzis" de tipul boolean chiar și în tabela dicționarului. Acest lucru vă poate reduce sarcina.

"Clasificatorul" a scris, acum scriem robotul. bl:







Articole similare

Trimiteți-le prietenilor: