Indicele inversat

Indicele inversat este structura de date. în care pentru fiecare cuvânt din colecția de documente din lista corespunzătoare sunt enumerate toate documentele din colecția în care a fost găsită. Indicele inversat este folosit pentru a căuta după text.







Există două versiuni ale indexului inversat:

  • Un index care conține numai o listă de documente pentru fiecare cuvânt,
  • index, care include în plus poziția cuvântului în fiecare document [1].

Descriim modul în care se rezolvă problema găsirii documentelor în care au loc toate cuvintele dintr-o interogare de căutare. Când procesați o interogare de căutare cu un singur cuvânt, răspunsul există deja în indexul inversat - este suficient să luați o listă corespunzătoare cuvântului din interogare. Atunci când se procesează o interogare cu mai multe cuvinte, sunt luate listele corespunzătoare fiecăreia dintre cuvintele de interogare și se intersectează.

De obicei, în motoarele de căutare, după construirea unui index inversat al unei liste de documente care conțin cuvinte din interogare, documentele sunt clasate din listă. Indicele inversat este cea mai populară structură de date utilizată în căutarea de informații [2].







Să presupunem că avem un corp de trei texte T 0 = => "este ceea ce este". T 1 = => "ce este" și T 2 = => "este o banană". atunci indicele inversat va arata astfel:

Aici, numerele indică numerele de texte în care cuvântul respectiv a fost întâlnit. Apoi, elaborarea interogării de căutare "ce este" va obține următorul rezultat <0. 1> ∩ <0. 1. 2> ∩ <0. 1. 2> = <0. 1>\ cap \\ cap \ = \>.

Caracteristicile aplicației în motoarele de căutare reale

Intrările din lista de documente de identitate în afară de cuvinte, de obicei, documente indică, de asemenea, factori (TF-IDF factor binar :. „cuvânt Oribil în titlu sau nu are“ alți factori), care sunt utilizate în clasament. Indicele nu poate fi construit pe toate formele de cuvinte. și prin Lemelor (sub forma canonică a cuvântului). Cuvinte stop pot fi excluse și nu pentru a construi un index pentru ei, având în vedere că fiecare dintre ele se găsește în aproape toate documentele cazului. Pentru a accelera calculul intersecțiilor folosesc euristica sări peste-pointer-uri. La procesarea interogările care conțin o mulțime de cuvinte, utilizați cvorumul, care trece la următoarea etapă a clasarea documentelor care nu au îndeplinit toate cuvintele din interogare.







Articole similare

Trimiteți-le prietenilor: