Modul în care motoarele de căutare definesc forme de cuvinte

Modul în care motoarele de căutare definesc forme de cuvinte

Limbajul nostru mare și puternic din Rusia este nu numai frumos, ci și foarte complex. Adesea, chiar și reprezentarea intuitivă a vorbitorilor nativi este împotriva formală. De exemplu, cine dintre noi își va aminti că în mod oficial "cel mai bun" este forma cuvântului "bun", deoarece este un grad excelent al acestui adjectiv? În același timp, "frumoase" și "frumoase" sunt cuvinte diferite, deoarece aparțin diferitelor părți ale discursului: "frumos" este un adjectiv, "bine" este un adverb.







Rezultatele parsării mașinilor sunt chiar mai izbitor de diferite față de prezentarea noastră intuitivă. În acest articol, vom analiza modul în care sunt văzute formularele de cuvinte Yandex și modul în care acestea afectează distribuția de căutare.

Diferențe între formele cuvântului mașinii

În limba noastră, câteva sute de mii de cuvinte și fiecare dintre ele are zece, sau chiar una, forme de cuvânt. Fiecare cuvânt, la rândul său, are mai multe proprietăți (caz, sex, număr, înclinare etc.). Dacă luăm orice adjectiv, atunci poate fi în șapte cazuri, un formular scurt, două numere, trei tipuri, două grade, animate sau neînsuflețite. Astfel, fiecare adjectiv are 129 de forme de cuvânt. Mai mult de jumătate dintre ele vor fi finalizări diferite.

Unele dicționare morfologice, în scopul salvării spațiului cuvintelor de grup prin terminologie în anumite grupuri morfologice. De exemplu, adjectivele "târâtoare" și "puternice" au sfârșituri identice în aceleași forme de cuvinte. Astfel de cuvinte sunt combinate, iar pentru ele este indicată doar baza comună pentru toate formele cuvântului, iar numărul grupului morfologic: "puternic, puternic, grupul # 21".

Majoritatea bazelor de date electronice funcționează în mod similar. Dacă salvați toate formele cuvânt în mod individual, trebuie să aloce aproximativ 500 MB de memorie, în timp ce grupul va fi suficient 10. Desigur, un 500MB mare pentru server - nu este mult, dar trebuie să observăm că lucrările asupra morfologiei Yandex efectuate în urmă cu aproximativ 10 ani, și cumpărarea a sute de servere cu o cantitate mare de memorie a fost o plăcere scumpă. De atunci, regulile limbii ruse nu este schimbat, și, prin urmare, nu era nevoie să rescrie morfologia - cu atât mai mult, orice schimbare sistemică ar fi dus la necesitatea de a rescrie alte părți ale codului.

Sinonime și forme de cuvinte

În rezultatele căutării, formularele de cuvinte sunt îndrăznețe. Cu toate acestea, precum și sinonime. De aceea nu putem spune sigur dacă motorul de căutare al cuvântului dintr-un fragment și o interogare este un singur cuvânt sau un sinonim? Pentru a dezactiva evidențierea sinonimelor și a lăsa doar formulare de cuvinte, puteți utiliza operatorul "+" din Yandex.

Majoritatea bazelor de date morfologice moderne se bazează pe dicționarul Zalizniak, în care au fost introduse grupuri morfologice pentru a economisi spațiu pe pagini. Cu toate acestea, având în vedere faptul că Zaliznyak și colegii săi au lucrat la dicționar cu peste 40 de ani în urmă, el păcătuiește cu niște "arhisme". De exemplu, verbele, participările și gerundurile (scrise / scrise) sunt considerate forme de cuvânt, în timp ce verbele de tip perfect și imperfect (scriere / scriere) nu sunt.

Modul în care motoarele de căutare definesc forme de cuvinte

După ce ați verificat Yandex pentru astfel de arhisme (le puteți găsi în baza de date AOT.ru), veți afla că le conține aproape în întregime. Cu toate acestea, trebuie remarcat faptul că Yandex folosește baza de date "sinonimă", iar unul dintre obiective este tocmai corectarea diferenței de percepție a formelor de cuvinte de către oameni și mașini. Deci, dacă cuvântul "face" este evidențiat în interogarea "a face o bomba de fum", atunci dacă adăugați "+" înaintea cuvântului "face", atunci evidențiarea cuvântului "face" dispare.

Cum înțelege Google cuvintele

Engleză este departe de a fi la fel de complicat ca și limba rusă. Nu atât de bogat în morfologia lui: cuvintele sunt doar câteva forme de cuvânt. De aceea nu este nevoie să grupați cuvintele pentru a optimiza memoria. Poate că, din motive de obișnuință a codului versiunilor rusești și engleză, morfologia Google nu folosește grupuri și, prin urmare, nu are defectele lui Yandex.

Dacă introduceți interogarea "făcut" în acest motor de căutare, cuvântul "face", cum ar fi Yandex, nu va fi căutat. Din motive de experiment, puteți scrie în Yandex și Google fraza "ca o plăcintă făcută". Aproape întotdeauna, Google alocă numai formulare de cuvinte pentru caractere aldine, dar nu puteți dezactiva evidențierea cuvântului "do" atunci când căutați "face" în acest motor de căutare. Astfel, se pare că în termenii Google "do" și "face" - forme de cuvinte, iar în Yandex - sinonime.







Ciudat, cum se pare, în morfologia rusă rusă este implementată mai corect decât în ​​Yandex. Chiar mai paradoxal este faptul că un astfel de sistem este o consecință a faptului că Google a venit la noi din America. Cu toate acestea, nu întotdeauna "drept" înseamnă "mai bine". Problema în care motorul de căutare este mai relevant este o problemă foarte controversată. Pe lângă ce ar trebui să ofere motorul de căutare răspunsul la interogarea "ca o plăcintă făcută".

Diferența în rezultatele clasamentului

Faptul că Yandex evidențiază sau nu completează formularele cu ajutorul unui plus înseamnă că o parte din formele cuvinte sunt determinate imediat de morfologie, altele - ca sinonime. S-ar putea foarte bine să fie faptul că Yandex nu face o diferență în clasament pentru formele morfologice și sinonime de cuvânt.

Astăzi, nu există o metodă de estimare a diferenței de emisiune, nici software pentru calculul acesteia. Analiza manuală emiterea a câteva sute de cereri este foarte dificilă. Astfel, este imposibil să se demonstreze că există vreo diferență în clasificarea diferitelor tipuri de forme de cuvinte. Singura modalitate este de a găsi o confirmare indirectă.

Dacă interogați motorul de căutare pentru formularele cuvântului mașină, numărul de pagini găsite va diferi cu cel mult 1%. Dar atunci când se interoghează sinonimele cuvântului, diferența este mult mai semnificativă, de la 10 la 30%:

  • "Faceți Google prima pagină" - 5 milioane
  • "A făcut Google pagina de pornire" - 5 milioane
  • "Efectuarea Google a paginii de start" - 7 milioane
  • "Google a făcut pagina de start" - 7 milioane

Este interesant să compari modificările emise între Google și Yandex. În primul motor de căutare, practic nu există nicio diferență între întrebările "cum să faci o plăcintă corectă" și "cum să faci o plăcintă corect". În Yandex, în primele zece, doar două dintre cele zece cereri vor coincide și chiar și cele care își vor schimba poziția în mod semnificativ.

Există, de asemenea, un grup de cuvinte care se remarcă cu îndrăzneală pe un principiu foarte ciudat. De exemplu, dacă introduceți cuvântul "cumpărați", vor fi evidențiate formele sale de cuvânt de tip imperfect (de exemplu, "cumpărați"), chiar dacă ați pus "+". Lucrul este că Yandex a introdus o excepție pentru acest cuvânt, deși pentru WordStat "cumpăra" și "cumpăra" și a rămas în cuvinte diferite. Dacă rezultatele emiterii ar fi aceleași pentru sinonime și formulare de cuvinte, atunci nu ar fi nici un motiv să se facă excepții pentru acest cuvânt.

"Cumpărați" o cerere foarte populară (WordStat indică faptul că are mai mult de 40 de milioane de afișări pe lună), așa că au fost luate măsuri suplimentare pentru a-și îmbunătăți clasamentul. Poate că îmbunătățirea rezultatelor emiterii de la introducerea unei legături directe între "buy" și "buy" nu este evidentă, însă dezvoltatorii și evaluatorii sunt mai vizibili. Există un alt exemplu în care îmbunătățirea emiterii nu este îndoielnică.

Este vorba de cuvintele "bucătar" și "gătit". Potrivit WordStat "bucătar" are un milion de hit-uri, "gătit" - aproximativ 100 de mii. Cu toate acestea, dacă articolul nu a fost verificat de un specialist SEO, acesta se va numi "cafea fierbinte" și nu "cum se face cafea". Beneficiul acestei excepții pentru clasament este evident.

După cum se spune, excepțiile confirmă doar regulile. Noi, pe baza studiilor noastre, putem spune că formele morfologice ale cuvântului se situează mai sus decât cuvântul forme-sinonime.

Întrebări de înaltă frecvență

Selectarea sinonimelor cu caractere aldine se oprește nu numai cu adăugarea "+". Notă: dacă tastați "hoteluri din Moscova" în bara de căutare, atunci cuvântul "hoteluri" nu va fi evidențiat. Dar dacă introduceți "centrul hotelurilor din Moscova" sau "hotelurile din Kiev", atunci iluminarea din spate va porni din nou. Prin urmare, există un anumit prag, care, aparent, depinde de numărul de pagini din index sau de relevanța primelor site-uri, și nu de frecvența interogării. Odată ce acest prag este depășit, sinonimele nu sunt incluse în problemă, pentru a nu agrava rezultatele.

Reguli generale pentru recunoașterea formularelor de cuvinte

Tipul perfect și imperfect al unui verb sunt sinonime, nu forme de cuvinte

  • relevante numai pentru Yandex
  • ≠ face face
  • Excepții: cumpărare / cumpărare, scoatere / scoatere, trimitere / trimitere

Verbele, participările și gerundii sunt forme de cuvinte

  • relevante numai pentru Yandex
  • do = făcut = făcut = făcut și așa mai departe.

deoarece trupurile participă la numărul, genul și cazul, ca adjective, iar pe gaj, ca verbe, atunci fiecare verb din Yandex are mai mult de 100 de formulare de cuvinte. Și cuvântul "cumpăra", care este o excepție, există și mai multe. Comuniunea poate fi folosită pentru a îmbunătăți clasarea verbelor (de exemplu, "cumpărat", "cumpărat" pentru cuvântul "cumpăra").

Diferitele părți ale cuvântului nu sunt formele cuvântului celuilalt

  • relevante numai pentru Yandex
  • cumpărare ≠ cumpărător ≠ cumpărare
  • să cânte frumos
  • fortăreață ≠ puternică
  • excepții: gătit / gătit, precum și toate verbele, participările și gerundurile

Toate formele de cuvinte ale substantivelor au un singur gen

  • este relevant atât pentru Yandex cât și pentru Google
  • frumos ≠ frumusete
  • profesor ≠ profesor

Adjectivul superlativ este una dintre formele cuvântului

  • relevante numai pentru Yandex
  • bun = cel mai bun
  • bun = cel mai bun = cel mai bun = cel mai bun = cel mai bun
  • frumos = frumos, etc.
  • vă rugăm să rețineți: frumos ≠ frumos (aceste cuvinte sunt sinonime)

Gradul comparativ al adjectivului este una dintre formele sale de cuvânt

  • este relevant atât pentru Yandex cât și pentru Google
  • bună = bună
  • frumos = mai frumos
  • Notă: Binele Google este mai bun, deoarece motorul de căutare termină acest cuvânt într-un grad excelent.

Asociația cuvântul Google are loc pe intuitiv similitudinea lor, mai degrabă decât pe regulile formale ale limbii ruse, care poate fi văzut foarte bine pe exemplul „bun“ - „mai bine“. În celelalte adjective, gradul comparativ se referă la forma obișnuită, nu superioară.

Așa cum am menționat mai sus, cel mai probabil, relevanța sinonimelor cuvântului în motoarele de căutare este mai mică decât în ​​formele morfologice de cuvinte. Prin urmare, dacă optimizați pagina, este mai bine să utilizați formulare de cuvinte în vizualizarea mașinii. Acest sfat este deosebit de relevant dacă introduceți o rafinare populară în șablonul de resurse, deoarece astfel modificați până la câteva mii de pagini.

Specializarea noastră este de a lucra cu diferite volume și subiecte. Site-uri - cărți de vizită, portaluri, magazine online.

Am implementat cu succes peste 113 de proiecte.







Articole similare

Trimiteți-le prietenilor: