Rezumat pe tema recuperării de informații pe Internet, descărcați eseu

Determinarea regiunilor geografice ale căutării
Deoarece realizarea regăsirii informațiilor urmărește obiective practice - valoarea practică a unei resurse de informații poate depinde de localizarea geografică a sursei relevante.






Scrierea tezaurului
Pentru a utiliza în mod eficient motoarele de căutare, aveți nevoie de o listă de cuvinte cheie, organizată luând în considerare relațiile semantice dintre ele, adică Tezaur. La compunerea tezaurului, este necesar să se ia în considerare prelucrarea sinonimelor, a omonimelor și a variațiilor morfologice ale cuvintelor cheie.
Folosind legile lui Zipf
Numărul care arată de câte ori apare un cuvânt în text se numește frecvența apariției cuvântului. Dacă aranjați frecvențele în timp ce mergeți în jos și numărați-le, atunci numărul ordinal al frecvenței se numește rang de frecvență. Probabilitatea de detectare a cuvintelor în text = frecvența apariției unui cuvânt / număr de cuvinte în text. Zipf a constatat că dacă înmulțim probabilitatea de a găsi un cuvânt în text pentru un rang de frecvență, atunci valoarea rezultată este aproximativ constantă pentru toate textele într-o singură limbă:






C = (frecvența apariției cuvintelor X rang de frecvență) / număr de cuvinte
Aceasta înseamnă că graficul dependenței rangului de frecvență este o hiperbolă echilaterală.
Zipf a stabilit de asemenea că dependența numărului de cuvinte cu o anumită frecvență pe frecvență este, de asemenea, o hiperbolă și o constantă pentru toate textele din aceeași limbă.
Ce poate fi extras din aceste legi? Studii ale relațiilor de mai sus pentru diferite texte au arătat că cele mai importante cuvinte ale textului sunt în mijlocul diagramei, după cum cuvântul cu frecvență maximă, de obicei, sunt prepoziții, particule, pronume în limba engleză - articol (așa-numitele „stop cuvinte“), și cuvintele rare în cele mai multe cazuri nu au o hotărâre







Articole similare

Trimiteți-le prietenilor: