Ce este ștampilarea, panda-copywriting

Stemming este constatarea bazei cuvântului (stems), adică partea care transmite sensul său lexical. De exemplu:

pădure -> pădure
drumeții -> trekking






sală de mese -> masă

De obicei, atunci când ștampilează, pur și simplu scot sfârșitul și sufixul. Dar cuvintele rusești au o structură destul de complexă, deci pentru limba rusă, ștampilarea este adesea folosită împreună cu alți algoritmi lingvistici (de exemplu, cu lemmatizare).

Termenul "stemming" este format din cuvântul "tulpină" - tulpină, tulpină, tulpină. Termenul, firește, a venit la noi din engleză, iar primul algoritm de transformare a fost dezvoltat de americanul Julie Beth Lovins în 1968.

Care este folosirea tulpinilor?

Mai întâi de toate, algoritmii de ștampilare sunt necesari de către motoarele de căutare. Cu ajutorul lor, Yandex și Google generalizează cererile utilizatorilor și măresc relevanța rezultatelor căutării. Datorită ștanțării, pot găsi nu numai cuvintele din interogare, ci și diferitele forme care ar putea interesa utilizatorul.







De exemplu, dacă o persoană a introdus cuvântul "pisică", atunci motoarele de căutare îi vor arăta în același timp și acele pagini în care există cuvântul "pisică". Dar, desigur, ordinea în emitere depinde de alți algoritmi de căutare: LSI, contabilitatea factorilor comportamentali etc.

Algoritmi și programe de ștanțare

Pentru a găsi rapid baza de cuvinte, aveți nevoie de un program special - un steward. Astăzi, există o mulțime de ele: gratuite și comerciale, care lucrează online și distribuite ca sursă. Dar toate, de regulă, sunt construite pe două algoritmi.

Primul este utilizarea de tabele speciale de către program, în care sunt introduse toate cuvintele și tulpinile lor. Algoritmul funcționează rapid și precis, dar este solicitant de resurse și nu este conceput pentru conversia cuvintelor necunoscute.

Al doilea este tăierea sufixelor și terminațiilor conform anumitor reguli. Algoritmul nu necesită resurse mari și lucrează ușor cu cuvinte necunoscute, dar în același timp este adesea confundat. Dezvoltatorii preferă de obicei un hibrid al acestor metode, adică trunchierea finalizărilor și tabele de tulpini.

Ați găsit o eroare? Selectați-l cu mouse-ul și apăsați pe stânga Ctrl + Enter.

Evaluați acest articol







Articole similare

Trimiteți-le prietenilor: