Caracteristicile implementării de motoare de stocare a documentelor și de căutare

Cerințe pentru sistemele axate pe economisirea și prelucrarea eficientă a datelor nestructurate sau semistructurate a dus la altul, în anii 1970, o ramură separată a sistemelor de gestionare a bazei de date de software pe baza cărora sistemele de informații documentare.







Cu toate acestea, cercetările teoretice privind extragerea de informații a documentelor, a început în anii 1950 - 1960, din păcate, nu au primit o astfel de strictă, completă și, în același timp, date fezabile din punct de vedere tehnologic și modele de prelucrare, cum ar fi modelul relațional la sistemele de fapt. Nu au fost primite ca standardizarea și numeroase încercări de a crea așa-numita universal limbaj de regăsire a informațiilor pentru descrierea formală a conținutului semantic al documentelor și interogări pe ele.

În prezent, sistemele de recuperare a informațiilor sunt utilizate pe scară largă în sistemele electronice legale, bibliotecile, internetul și alte sisteme.

Introducere și capitolele 1, 2, 3, 4 sunt scrise de A.T. Greu, capitolul 5 - TT. Osipova, capitolele 6, 7, 8 - R.R. Fokine, capitolul 9 și întrebări pentru autocontrol - MA. Abisele.

Capitolul 1. TIPURI DE SISTEME DE CĂUTARE A INFORMAȚIEI. CARACTERISTICI GENERALE

Sistemul de recuperare a informațiilor (IPS) este un sistem informatic (IS) cu un singur depozit de elemente de date unice și cu instrumente dezvoltate pentru căutarea și selecția lor.

Modulele IPS sunt construite în aproape toate software-urile moderne.

Dintre numărul mare de fișiere de pe orice disc, putem găsi fișierele de care avem nevoie.

încercați să găsiți fișierele d.d: WORD (* .doc, * .rtf), care conțin instrucțiuni, note, materiale explicative despre IPS.

În textul lung (abstract, curs, diplomă, teză) găsiți locul în care ne trebuie în text, dacă ne amintim vreun cuvânt în acest loc. Puteți înlocui toate aparițiile în textul unui cuvânt cu un alt cuvânt.

găsiți un fișier WORD (* .doc, * .rtf) și în acest fișier înlocuiți orice 10 cuvinte cu sinonimele lor.

IPS pe CD-DVD DISCS

Există un disc laser și instrucțiuni pentru instalarea IPS corespunzătoare pe computer. Dintre acestea, de exemplu:

- Planul de sus Sankt Petersburg

- Planul de sus al regiunii Leningrad

- Ai venit cu un cec

- Cum să aplicați pentru un loc de muncă

- Alegerea și secretele camerelor digitale

- Alegerea și secretele de schiuri și snowboarduri

Să punem aceste IPS pe unul dintre computerele noastre.

Cel mai puternic IPS este disponibil pe Internet.

Motoarele de căutare Rambler (www.rambler.ru), Yandex (www.yandex.ru), etc. servesc în principal pentru a găsi site-urile potrivite. Aceste IPS sunt inteligente. Dacă cerem să găsim site-uri cu cuvântul "pilot", atunci se vor găsi și site-uri cu cuvântul "pilot" și în toate cazurile.

Cele mai renumite site-uri (firme, biblioteci, istorie etc.) sunt IPS pentru a căuta informații pe acest site. Iată câteva exemple:

Figura 1.1. Clasificarea IPS pe tipuri de elemente de date unice

Prin tipul de elemente de date unice, IPS-urile sunt subdivizate în documente factuale și documentare (Figura 1.1).







IPS-urile factografice sunt sisteme informatice în care un singur element de date care are o valoare semantică separată este un record. formată dintr-un set finit de câmpuri de atribute.

De exemplu, în Access, o înregistrare poate consta în următoarele câmpuri (Tabelul 1.1).

Tabelul 1.1. O înregistrare de acces

Operațiunea de fapt IRS, trebuie să fie date structurate inițial (rapoarte de senzor pentru sistemele de control al proceselor, contabilitate financiară tablouri ICS, etc.) sau date de pre-structurare. Din aceasta rezultă deficiențele IC:

- deseori structurarea datelor necesită facturi mari, incl. și costurile organizaționale, ceea ce duce la costuri materiale de informatizare,

- un extras din textul pozițiilor formalizate pentru inserarea în circuitele integrate de fapt poate duce la erori și pierderea unei părți a informațiilor pe care sursa originală este disponibilă, dar din cauza lipsei în baza de date elemente de date în ea corespunzătoare nu pot fi reflectate.

Recent, prioritatea a fost acordată IPS documentate.

Documentare IPS - sisteme informatice, unicul element al căruia este un document care este nestructurat în elemente mai mici.

De obicei, acestea sunt documente text sub formă de fișiere text, deși fișierele audio și grafice pot de asemenea să aparțină clasei de date documentate nestructurate.

Sarcina principală a documentației IS este acumularea și furnizarea de documente către utilizator, care, în funcție de conținut, obiect, rechizite etc., corespund nevoilor sale de informare.

Nevoia de informare este o înțelegere conștientă a diferenței în cunoașterea individuală, determinată de diferența dintre percepția subiectivă a subiectului activității și nivelul cunoștințelor despre acest subiect acumulat de societate.

Comentarii: Nevoia de informații este informația de care are nevoie utilizatorul.

Perthness este corespondența dintre documentele găsite pentru nevoile de informare ale utilizatorului.

Comentarii: Informațiile găsite de IPS pot să nu corespundă în totalitate nevoilor utilizatorului.

Caracteristicile implementării de motoare de stocare a documentelor și de căutare

În funcție de specificul implementării mecanismelor de stocare și de căutare a documentelor, IPS-ul documentat este împărțit în Sisteme bazate pe Index și Sisteme de Navigație Semantică (Figura 1.2).

Figura 1.2. Tipuri de IPS documentate, în funcție de specificul implementării depozitului de documente și a mecanismelor de căutare

În sistemele de navigație semantică, documentele plasate în depozit (baza) documentelor sunt dotate cu structuri de navigație speciale. corespunzând legăturilor semantice (referințe) între diferite documente sau fragmente separate ale unui document. Astfel de construcții realizează o rețea semantică (semantică) în baza de date a documentelor. Căutarea se realizează prin navigare explicită prin referințele semantice dintre documente. În prezent, această abordare este implementată în IPS hipertext.

Indexarea este o descriere a conținutului unui document printr-un limbaj de informare formalizat.

Metoda de căutare a documentelor (AMP) este o descriere formalizată a indexului de documente.

Modul de căutare al cererii (POS) în baza de date a documentelor este expresia utilizatorului a nevoilor sale de informare prin mijloacele și limba locului de căutare.

Sistemul, bazat pe anumite criterii și metode, caută documente care respectă sau se apropie de POS și emite documentele relevante.

Comentarii: Există un număr mare de informații - documentele în sine. Nu există aproape nimic de găsit. Colectăm indexul - o mică informație, pentru a facilita căutarea. Aceasta este indexarea. Exemple: Informațiile mici (index) reprezintă o hartă a terenului. O mare informație - aceasta este chiar localitatea. Informațiile mici (indicele) reprezintă cuprinsul cărții. O mare informație este cartea însăși. Să fie o carte despre artiști. Potrivit cuprinsului, este ușor să găsiți informații despre unele pagini, de exemplu despre Shishkin. În acest caz, documentele sunt capitolele cărții, spațiul de căutare este cuprinsul, imaginile de căutare ale documentelor (AML) sunt elementele tabelului cu conținut. Imaginea interogării de căutare (POS) - cuvântul Shishkin, căutăm un cuprins cu acest cuvânt.

Figura 1.3. Sistem bazat pe indicii

Relevanța este corespondența documentelor găsite la cererea utilizatorului.

Comentarii: Datorită cererii în sine diferă de imaginea de căutare (POS)? Cererea este formulată și înțeleasă de către persoană. De exemplu: Sunt interesat de documente de pe Internet care susțin că zborurile americane pe Lună sunt o farsă. POS este formulată astfel încât să fie "înțeleasă" de mașină. De exemplu, ca un set de cuvinte cheie: americanii care au zburat la moon. POS poate să nu respecte pe deplin cererea.







Articole similare

Trimiteți-le prietenilor: