Noțiuni de bază privind recuperarea de informații pe Internet

Curs de bază:
Bazele muncii profesionale cu resursele informaționale ale Internetului

act de renunțare

În ciuda faptului că toate eforturile au fost făcute pentru a se asigura că documentul este lipsit de greșeli de tipar, informații incorecte și referințe caduce la resursele de pe Internet, filiala St. Petersburg al Institutului „Open Society“, nu poartă nici o responsabilitate pentru daune, atât directe, cât și Indirect, care poate fi cauzată de utilizarea acestui document.







Toate mărcile comerciale menționate sunt proprietatea proprietarilor lor.

Căutarea de informații este o sarcină pe care omenirea o rezolvă de mai multe secole. Deoarece numărul de resurse de informații potențial accesibile unei singure persoane (de exemplu, un vizitator al bibliotecii) crește, s-au dezvoltat instrumente și tehnici de căutare mai sofisticate și mai sofisticate pentru a găsi documentul necesar.

La început, aceste mijloace au fost îmbunătățite în cataloage și în departamentele de informații ale bibliotecilor mari. În anii '70 ai secolului XX au apărut baze de date, acces la care a fost furnizată prima dată printr-o conexiune dial-up și apoi prin intermediul protocolului telnet prin Internet. Costul de lucru cu astfel de baze de date este foarte mare. De exemplu, un minut de lucru cu baza de date DIALOG (www.dialog.com) poate costa un dolar, iar rezultatul unui element al înregistrării găsite (de exemplu, 70) este de 20 de cenți. Un astfel de cost ridicat de căutare a informațiilor necesită crearea de tehnici eficiente de căutare.

Studiile privind metodele de regăsire a informațiilor sunt publicate în reviste științifice. În țara noastră - în jurnalul "Informații științifice și tehnice" (ITS), în SUA - în Jurnalul Societății Americane de Sisteme Informatice (JASIS).

Toate mijloacele și metodele de căutare a informațiilor găsite pe parcursul mai multor ani sunt disponibile și eficiente atunci când se caută informații pe Internet.

Bibliotecile folosesc, în principiu, trei tipuri de cataloage: alfabetic, sistematic și subiect. Sistemele de recuperare a informațiilor (IPS) Internetul, pentru toată diversitatea sa externă, se încadrează, de asemenea, într-una din aceste clase. Prin urmare, înainte de a ne familiariza cu aceste IPS, să vedem cum sunt aranjate IPA-urile alfabetice (vocabular), sistematice și subiecte. Și pentru aceasta, este necesar să ne cunoaștem mai mulți termeni din teoria recuperării informațiilor. Excursia noastră în teorie se va dovedi folositoare atunci când se întâlnește cu următoarea IPS (și câteva sute pe Internet) - în aceste IPS vă veți familiariza cu caracteristici familiare.

Excursie la teorie
sisteme de recuperare a informațiilor

Aceste informații necesită deseori (de regulă) nu pot fi exprimate cu exactitate în cuvinte și sunt exprimate doar în evaluarea documentelor vizualizate - potrivite sau necorespunzătoare. În teoria recuperării informației se folosește termenul "DOCUMENTUL PERTINENTAL" în locul cuvântului "potrivit", iar în loc de "non-permanent" se utilizează "nu este potrivit". Cuvântul "pertinent" vine de la "pertinentul" englezesc, ceea ce înseamnă "relevante, adecvate de fapt". Scopul subiectiv al înțelegerii informațiilor este de a găsi toate documentele pertinente și singurele perthențiari (vrem să găsim "doar ceea ce dorim și nimic mai mult").

Atunci când există multe documente, se utilizează sistemul de recuperare a informațiilor (IPS). În acest caz, nevoia de informare trebuie exprimată prin intermediul mijloacelor pe care IPS "înțelege" trebuie să fie formulate. Anchetă:

O interogare poate rareori exprima cu acuratețe o nevoie de informații. Cu toate acestea, multe IPA, din diverse motive, nu pot determina dacă un anumit document este în conformitate cu cererea. Gradul în care documentul îndeplinește cererea se numește RELEVANȚĂ. Documentul relevant poate să nu fie relevant și invers. Este cunoscut (american) IPS, care, la cererea constând în singurul cuvânt "Rusia" (Rusia), produce o listă de documente, în primul din care nu există niciun cuvânt, dar există cuvântul "Gagarin". Acest document este irelevant, dar este perpetuu pentru o audiență americană în masă. În cazul în care se caută informații despre ancorele de pescărie (pisici), o interogare constând din cuvântul "pisică", în aproape orice IPS va da o mulțime de documente relevante, dar neimprimate.

Un exemplu clasic al clasificării IPS este Yahoo (www.yahoo.com). După ce a apărut abia, Yahoo a câștigat rapid recunoașterea prin elaborarea calitativă a clasificatorului. Acum, în Yahoo există mai mult de 100 de sistematizatori.

Aceasta nu este o sarcină ușoară. Există o profesie care rezolvă această problemă - traducători. Un interpret bun traduce nu numai cuvintele, ci și ceea ce se numește "realități culturale". În cazul recuperării informațiilor, profesionistul corespunzător se numește "BROKERUL DE INFORMAȚII". El deține metode cognitive, știe cum sunt organizați clasificatorii și modul în care sunt interpretați de sistematizatori. Aceste cunoștințe permit unui broker de informații să discute cu dvs. pentru a studia nevoile dvs. de informare și pentru ao transforma într-o interogare. În biblioteci, acești "brokeri de informații" lucrează în departamentele informatice și bibliografice. Brokerii de informații pe internet se află deja în țara noastră, deși este încă rar.

Aceste tehnici sunt utilizate într-o situație în care un document poate fi atribuit uneia din mai multe secțiuni ale clasificatorului, iar persoana care efectuează căutarea (motorul de căutare) poate să nu știe la ce secțiune specială.

este utilizat de referință atunci când creatorii clasificator, și systematists capabile să ia o decizie clară cu privire de trimitere documentul la una dintre secțiunile de clasificatorul, iar motorul de căutare cu o anumită probabilitate, în căutarea documentului pentru a ieși din această secțiune. Apoi, în această altă secțiune, referința ("A se vedea") este plasată în acea secțiune a clasificatorului în care sunt plasate informații despre documentele de acest tip.

De exemplu, informațiile despre hărțile țării pot fi plasate în secțiunile "Știință / Geografie / Țară", "Economie / Geografie / Țară" sau "Directoare / Hărți / Țară". Se decide ca hărțile țării să fie plasate în a doua secțiune "Economie / Geografie / Țară"; apoi în celelalte două secțiuni sunt plasate referințe la acesta. Această tehnică este utilizată în mod activ în Yahoo IPS (referința este notată cu @ în ea).

Există multe IPS de clasificare pe Internet (unele sunt menționate în rezumatul IPS la sfârșitul articolului). Clasificarea IPS (American Yahoo, European Yellow Web, Constellation Internet din Rusia și Au) utilizează IPS vocabular auxiliar în propriile titluri (analogi ai indexurilor alfabetice ale bibliotecii). Alte clasificări IPS există pur și simplu împreună cu IPS de tip dictionar (Excite, Lycos, Infoseek).







Din fericire, în ciuda abundenței cuvintelor (și formularelor de cuvinte) în limbi naturale, cele mai multe dintre ele sunt folosite rare, ceea ce a fost remarcat de către învățatul lingvist Zipf la sfârșitul anilor '40 ai secolului. În plus, cele mai frecvente cuvinte sunt alianțele, preposițiile și articolele, adică, cuvinte, complet inutile când căutăm informații. Ca rezultat, dicționarul celui mai mare dicționar IPS Internet-Alta Vista - are o capacitate de numai câteva GB.

În loc de a spune "O listă de documente care conțin cuvântul" tabel "sau documente care conțin cuvântul" scaun ", se folosesc expresiile abreviate din figură. Reducerea în continuare a expresiei găsită în sistem dicționar de regăsire limbaj de interogare: în loc de „Găsiți o listă de documente care conțin cuvântul«tabelul»sau documentele care conțin cuvântul«scaun»“, cea mai mare parte a sistemului de recuperare cuvânt este suficient pentru a scrie ceva de genul

Sindicatul SA în cererea către dicționar IPS acționează ca OPERATOR LOGIC, legând setul de documente solicitate. Dicționarul IPS utilizează trei operatori logici: OR, AND și AND (nu "dar fără"); de regulă, acești operatori sunt desemnați prin una din următoarele metode:

Acești operatori au prioritate (realizează în primul rând un SI NU, atunci - și numai atunci - SAU) (. Singura excepție este că, în loc de paranteze Infoseek IRS utilizează alte denumiri), astfel încât pentru compilarea interogări complexe pot utiliza paranteze. Ca o regulă, dicționar IPS internet oferă utilizatorilor cu două interfețe - modul „solicitare complexă“ (căutare avansată „), care sunt disponibile tuturor operatorilor logici și modul de căutare simplă, în care, de regulă, este imposibil să se folosească de paranteze și, prin urmare, pot fi folosite nu toate combinațiile de operatori.

Să examinăm un exemplu ipotetic de a găsi informații despre mese. Având în vedere cuvântul "table" și cunoștințele noastre despre operatorii logici, interogarea în dicționarul IPS ar putea arăta astfel:

O masă sau un birou SAU o masă SAU un birou sau masă

Este bine că acesta este doar un singur cuvânt, dar este deja mai degrabă trist să scrieți acest lucru.

Vestul IPS, orientat spre engleza, oferă o soluție simplă: în loc de un cuvânt, puteți scrie începutul acestuia, înlocuind partea modificată cu un asterisc:

În mod formal, un asterisc înlocuiește orice număr de caractere, deci se spune că acesta denotă o trunchiere corectă. Apelarea cuvântului "table *" limba nu se rotește, astfel încât pentru aceste părți ale expresiilor logice de interogare se folosește numele TERM. Un asterisc pentru scopul specificat (trunchierea din dreapta) este utilizat de către întregul dicționar IPS Internet cunoscut.

Cu toate acestea, o astfel de interogare va găsi, de asemenea, documente cu cuvintele "sala de mese", "table-top", "șef de staff" și chiar "stâlp". Acest fenomen - sinonimia artificială - poate interfera foarte mult cu căutarea, însă manifestarea sa nu poate fi avută în vedere în avans.

Două ruse IPS (Yandex și Aport) "cunosc" gramatica rusă, iar în dicționar ei stochează doar așa-numita "formă normală" a cuvântului (pentru substantiv, cazul nominativ al singularului). Aceste sisteme permit scrierea unei interogări într-o limbă naturală, normalizând termenii interogării, simplificând astfel foarte mult căutarea în Internetul rusesc.

Capacitățile descrise ale IPS vocabularului, deși destul de puternice, sunt adesea destul de inadecvate pentru căutarea unor informații foarte simple. Să încercăm să rezolvăm următoarea problemă: să găsim informații despre vânzarea scaunelor metalice:

metal * Și scaun *

Dar această cerere este răspunsă de lista de prețuri a societății comerciale care vinde un scaun de lemn din răchită (al doilea rând din lista de prețuri) și un dulap metalic (lista de prețuri de 178 de linii). Operatorul AND caută documente în care cuvintele dorite se găsesc oriunde!

Pentru a soluționa acest neajuns, unele IPS-uri stochează nu doar o listă de documente în care are loc un cuvânt, ci și numărul cuvântului respectiv într-un anumit document. Acest lucru face posibilă, în limba de interogare, ca un astfel de IPS să folosească operatorul CLOSE, care rezolvă sarcina:

metal * scaun NEAR *

Multe IPS-uri nu vă permit să scrieți o astfel de solicitare - nu permit utilizarea termenilor cu trunchiere corectă împreună cu SERIA operatorului (numai cuvinte), dar această restricție este eliminată treptat, - urmăriți informații despre IPS specifice.

Operatorul dintr-un număr de IPS este indicat în moduri diferite (este disponibil în Alta Vista, Lycos, Aport și Yandex, precum și în teleconferințele IPA ale DejaNews.) Și toate aceste IRS utilizează denumiri diferite). În plus, în diferite IPS poate avea un sens oarecum diferit. Deci, Alta Vista crede că NEAR nu este mai mult de 15 cuvinte în orice ordine, în timp ce alte IPS vă permit să specificați distanța necesară între cuvinte (exact atât de mult sau nu mai mult decât atât). Lycos vă permite să specificați distanța și ordinea de cuvinte cerută. Aport vă permite să specificați distanța dintre cuvinte în cuvinte și propoziții; Yandex - în cuvinte și paragrafe (cu abilitatea de a specifica ordinea cuvintelor).

Serverul american IPS Alta Vista (www.altavista.digital.com) oferă o modalitate unică de a rafina rezultatele căutării. Această metodă funcționează numai dacă interogarea utilizează numai termeni în limba engleză.

Când faceți clic pe butonul Redimensionare, apare o listă de concepte în documentele pe care tocmai ați găsit. Cu fiecare concept, Alta Vista asociază o listă de cuvinte care sunt imediat vizibile. Fiecare concept poate fi inclus într-o interogare nouă, exclusă din ea sau ignorată. Numai acest lucru face posibilă îmbunătățirea drastică a eficienței căutării prin eliminarea unor concepte care nu fac parte din domeniul subiectului solicitat și a căror coexistență cu termenii utilizați este adesea dificil de ghicit.

Dacă browserul dvs. acceptă Java, faceți clic pe butonul Graf. veți vedea o schemă de legături între concepte și, în plus, puteți include în interogare și puteți exclude din ea nu numai conceptele în întregime, ci și cuvintele individuale asociate cu acestea.

Subiectul IPS din punctul de vedere al utilizatorului este aranjat cel mai simplu. Căutați numele subiectului dorit de interesul dvs. (poate exista ceva insubstanțial, de exemplu muzica indiană), iar liste cu resurse relevante de Internet sunt asociate cu numele. Acest lucru ar fi foarte convenabil dacă lista completă a articolelor este mică.

Deci a fost un timp în urmă. Webmasterii care se ocupă de un subiect au început să lege serverele colegilor lor pe serverele lor, creând structuri de referință circulare.

Este clar că găsirea subiectului de interes potrivit este acum dificilă. www.webring.org are propria sa clasificare și vocabular IPS auxiliar, ajutând la găsirea numelui subiectului.

Este probabil imposibil să oferiți o rețetă generală pentru o strategie eficientă de căutare a informațiilor pe internet. Există doar câteva principii care vă permit să petreceți mai puțin timp. Voi încerca să le explic.

Voi începe cu un exemplu. Dacă trebuie să știți unde crește arboretoiul, atunci este puțin probabil să mergeți la catalogul alfabetic al bibliotecii. Poate veți găsi literatura de care aveți nevoie cu un catalog sistematic. Cu o probabilitate puțin mai mare - cu ajutorul subiectului. Dar, cel mai probabil, nici unul din cataloagele bibliotecii nu vă va ajuta. Dar mergeți la departamentul de informare-bibliografie al unei biblioteci mari și bibliograful la datorie va obține un indice bibliografic pe tufișuri sau pe o carte similară, din care veți găsi răspunsul la întrebarea dvs.

O astfel de strategie poate fi aplicată cu succes pe Internet. În scopul general IPS, vă puteți îneca în mii de linkuri emise pentru dvs. pentru o interogare simplă. Scopul utilizării unui IPS cu scop general este de a căuta un IPS specializat dedicat subiectului dvs. de căutare. O astfel de IPS poate fi recunoscută prin prezența cuvintelor "informație", "document" etc. în documentele găsite în IPS universală. Dar, adesea, un IPS specializat se poate ascunde pe serverul unei organizații publice, profesionale sau specializate, o editură.

Uneori este necesar să căutăm mai multe sisteme informatice cu teme tot mai înguste. Într-o zi mi-au cerut să găsesc urgent informații despre vânzarea navelor de mărfuri uscate (în engleză - bulk). Interogare în Alta Vista (căutare simplă)

a dat un rezultat zero; anchetă

mii de legături către paginile dedicate vânzării de bărci și iahturi (totuși, a fost prins și o barja). Un studiu atent al primelor pagini din lista rezultatelor căutării a arătat că în textele găsite, cuvântul "marin" este adesea prezent. Și apoi mi-am amintit că există în limba engleză cuvântul "maritim", adică "toată marea". anchetă

deja printre primele zece linkuri a fost inclusă o legătură cu sistemul informatic pe tema marii, situat pe www.GeoCities.com. Dar nu au existat informații cu privire la vânzarea de mărfuri uscate în ea. Dar au existat informații despre transportul de mărfuri uscate din porturile lumii, inclusiv informații despre proprietarii navelor. Multe dintre firmele proprietarilor de nave aveau în titlul lor cuvintele "brokeri de nave". Nu știam această expresie engleză. Cu toate acestea, cererea în Alta Vista

Al treilea element al strategiei: utilizați mai multe IPS. Dacă căutați cu regularitate informații despre un anumit subiect, marcați IRS. care sunt cele mai eficiente pentru dvs.







Articole similare

Trimiteți-le prietenilor: