Tehnologie "spectru" de Yandex și clasificarea paginilor web

Eugene și-a dedicat discursul despre particularitățile tehnologiei Spectrum. Și începu, ca de obicei, cu istoria întrebării.

Atunci când utilizatorii solicită Yandex, în aproximativ 20% din cazuri, ei formulează ambiguitatea interogării. De exemplu, la cerere [Napoleon], cineva vrea să găsească un comandant, iar cineva - o rețetă pentru un tort. Și întrebând [sushi], o persoană poate căuta atât un restaurant cu livrare la domiciliu, cât și o rețetă pentru acest fel de mâncare.







Obiectivele implicite sunt alocate utilizând statisticile interogărilor de căutare. În principiu, acest lucru este rezonabil. Cineva când caută [laptop] vrea să cumpere un laptop nou, cineva vrea să cumpere un laptop folosit.

Tipurile de subiecte ale rezultatelor:

1. Tema paginii: "noi, cumpărați". Evidențierea în fragment: vânzare, preț. cumpăra, catalog, noi, etc.

2. Tema paginii: "second-hand." Evidentiate în fragment: folosite, second-hand. etc. Nu evidențiate: vânzare, preț, reparații

3. Tema paginii: "reparare" Evidențierea în fragment: reparare. etc. NU Evidențiere: de vânzare, preț, utilizat

Potrivit lui Eugene, tehnologia Spectrum a funcționat corect. Subiecții erau separați și nu se suprapun. Apoi, ideea obișnuită a unui SEO a fost de lucru - pentru a scrie mai multe cuvinte diferite, dar dintr-o dată ceva ar ieși. Acum Spectrum funcționează diferit.

Acum, o listă de intenții suplimentare este alocată solicitării (

intențiile, temele) ale utilizatorului, rezultatele sunt adăugate la rezultatele dintr-o bază separată de pagini clasificate (în funcție de subiect):

- Iluminarea cuvintelor "spectrale" în rezultatele "obișnuite"

- Punctul culminant al tuturor cuvintelor "spectrale", indiferent de intențiile (temele)

- Amestecarea este o cârpă. Uneori există site-uri care accesează cu crawlere toate solicitările. Este destul de lucru bine-cunoscut, atunci când, la cererea [de lucru] site-uri despre crawl „reclame“ din cauza faptului că el a avut unde era scris cuvântul „lucrarea“, iar site-ul a fost de baze de date mai relevante. Desigur, nu se poate presupune că site-ul despre furgonete a fost clasificat la cerere [lucrare]. "Vans" scor extrădarea.

- Există câteva rezultate ale impurității într-o propoziție. De exemplu, câteva extorcări asupra recenziilor. De exemplu, cereți un model al mașinii [Suzuki Grand Vitara]. Sunt evidențiate și fotografiile și descrierea, precum și costul și caracteristicile tehnice - toate intențiile posibile, care stau acolo:

Tehnologie

Cum să distingem o impuritate spectrală de aceeași intenție, pe aceeași temă?

Prin ID-ul documentului din ieșirea XML. Fragmentele cu coduri de culoare se schimbă regulat. Se poate observa că cel de-al șaselea rezultat și al cincilea sunt consacrate revizuirilor, deși există multe alte intenții posibile ale utilizatorului, în afară de feedback-ul. Fiecare rezultat are un ID document:

Document comun: 4 fragmente

SPECTRUM. 3 fragmente

Viteză: 3 fragmente

Ultra-robot (nu acum): 2 fragmente

De exemplu, în interogarea [i], au fost zece din zece rezultate spectrale în emitere. Cererile sunt de diferite tipuri [Perm, Kazan, Novosibirsk]. Este foarte de neînțeles de ce în acest caz: [Victor Tsoi], [despre câini]. Se pare că a fost primul cuvânt, dar apoi a fost tăiat și aruncat, iar cererea însăși în această formă a intrat în "Spectrum".

Iată cererea [kazan], adăugați. subiecte din "Spectra" - 7 din 10:

Tehnologie

Care sunt câteva din subiectele evidente pe care le avem? Harta, atracții, știri, hoteluri. Orașul Kazan este oficial, probabil, un sit al orașului Kazan. Și ultima este Gismeteo.ru, vremea. Totul pare să fie bun. Dar, atunci când intrăm în interogarea [Kazan], atunci vom vedea că Spectra pur și simplu nu este acolo și nu există impurități aici:







Tehnologie

Aceasta este o problemă obișnuită. În mod surprinzător, nu există nici un spectru pe această solicitare, în ciuda faptului că frecvența lui este de zece ori mai mare decât interogarea [kazan].

Unele site-uri sunt mai norocoase. Unele site-uri intră foarte des în "Spectrum". Este clar că cu cât mai multe solicitări, cu atât mai multe site-uri. Din numărul mare de impurități spectre, cel mai mare lider este www.torrentino.com, www.zaycev.net, apoi din nou www.fast-torrent.ru - în general, site-uri de divertisment.

Unele site-uri au norocul să intre temporar în "Spectrum", apoi sunt curățate.

Caracteristici termice. Am identifi ed cele mai informative termen-caracteristici bazate pe informații reciproce ... Așa cum era de așteptat, termenii cei mai contrastante au fost magazin, rublă, catalog, pret, pret, si Basket ... Lista completă a termenilor folosiți pentru clasificare a constat din aproximativ o sută de termeni .

Caracteristici Lexicale. Am folosit lista marcilor și marcilor

Caracteristicile pe termen lung ... varietatea lexicală a recenziilor este mult mai mare decât cea a magazinului.

Caracteristicile lexicale. Lista a 165 de adjective de evaluare colectate manual - bune, frumoase, superbe, rele, dezgustatoare, oribile etc. (bun, excelent, magnific, rău, dezgustător, îngrozitor etc.)

O persoană întreabă o întrebare despre un produs posibil, iar sarcina este să decidă dacă dorește să cumpere acest produs sau dacă dorește să citească despre el. Pentru a clasifica interogările și paginile pentru magazine, este utilizată terminologia, în care aproximativ o sută de cuvinte sunt vizibile pentru magazin. Și pentru clasificarea revizuirii sunt folosite aproximativ 7 mii de cuvinte, iar unele adjective sunt făcute manual. Ordinea de ordine în clasificator este de 7-10 mii.

Dar cel mai interesant lucru este că extrădarea este și fragmente verbose. De exemplu, cereți [pizza] la Moscova. Se vede că [pizza] și [livrarea] sunt separate separat, iar fragmentul [la domiciliu] este alocat în întregime. Două cuvinte dintr-o singură bucată:

Tehnologie

În general, emiterea de astfel de fragmente verbose în "Spectrum" este foarte mare. Din numărul total de 83 mii, au fost 20-25% din impuritățile spectrului și doar 127 au fost unice.

Fragmentele verbose superioare arată astfel:

ce este 21773, 26,1%

Vizionați online - 17034, 20,4%

versuri - 10970, 13.1%

cu mâinile lor - 9809, 11,7%

în casă - 4062, 4,9%

prognoza meteo - 2639, 3.2%

comentarii proprietar - 2324, 2,8%

versurile melodiei - 2049, 2,5%

textele cântecelor - 1862, 2,2%

drivere de descărcat - 1001, 1.2%

pe hartă - 992, 1,2%

specificații tehnice - 970, 1,2%

ceas online - 899, 1,1%

harta orasului - 681, 0,8%

driver de descărcare - 634, 0,8%

Evident, aceste fragmente sunt adăugate manual. Dar, desigur, înfricoșător, că Yandex va începe să ia în considerare aceste cuvinte în clasament, deoarece acestea sunt încă în clasament nu sunt utilizate, și utilizate numai calificativul „Spectra“. Ce ar trebui să fac?

Dacă presupunem că nu participă la clasament, atunci singurul interes posibil este de a intra în impuritățile spectrului. Următorul - un site web de calitate. Unele site-uri sunt amestecate mai des. Clarificați cuvintele de clasificare și fragmentele verbose pentru interogările dvs. (solicitări pentru subiecte diferite). Nu fi timid să le folosiți în text. Și așa mai departe.

Vă mulțumesc pentru atenție!

Sala: - A fost cercetat tipul de anchetă care intră în amestecul spectral? Este clar că ar trebui să conțină cuvinte suplimentare care caracterizează intențiile. Ei trec prin operator sau sunt adăugați cumva? Este de înțeles că putem izola cuvintele. Luați singur subiectul, vom introduce condițiile. Toate aceste lucruri putem calcula atât cuvintele, cât și frazele. Dar este logic să presupunem că siturile sunt contaminate de aceste intenții și că sunt lideri pe orice cerere. A fost efectuat un astfel de studiu? Fie la solicitări, fie la conducătorul unui grup de solicitări. Ce este această solicitare? Sau este un alt fel de lovitură?

Eugene Trofimenko: - Există două opțiuni pentru întrebarea dvs. Sau despre cererea sau despre intersecția subiecților din Spectrum.

Sala: - Despre cereri.

Eugene Trofimenko: - Nu, nu a fost investigat.

Sala: - Adică, este logic să presupunem că, pentru a rezolva problema de a intra în Spectrum, trebuie să înțelegem cu ce cerere și să devenim lider pe ea.

Eugene Trofimenko: - Nu este liderul. Cred că este necesar să faceți cel puțin o interogare, conform căreia există un spectru și care vă convine.

Sala: - A fost un rezultat spectral și a fost produs într-un loc fix, pe al șaselea sau pe al optulea. Apoi, rezultatul spectral a devenit numărul unu și clasat pe primul loc?

Eugene Trofimenko: - Deci, vrei să întrebi, cum se schimbă poziția în impuritatea spectrală?

Sala: - Da. Poate a fost explorat?

Eugene Trofimenko: - Nu, nu a fost investigat. Trebuie doar să procesați un mic set de solicitări.

Sala: - Asta înseamnă doar schimbarea pozițiilor impurității spectrale?

Evgeni Trofimenko: - Bineînțeles, se schimbă.

Sala: - Aș dori să clarific de unde să obțin aceste extra. cuvinte pentru amestecare?

Eugene Trofimenko: - Parcurgeți problema acelor solicitări care vă interesează.

Sala: - Dar nu sunt toate, probabil, vor fi?

Eugene Trofimenko: - Da, nu sunt toate. Și, nu toate parsit, sunteți pe fiecare loc găsit, sortare prin trei site-uri. După aceea, și acolo este prezentat un număr de zece. Și prin navigarea diferitelor url-uri în cadrul site-ului, puteți trage mai mult.







Articole similare

Trimiteți-le prietenilor: