Parsarea peste 1000 de rezultate ale emiterii de Yandex și Google folosind mai mult

În procesul de optimizare a site-ului, este adesea necesar să se analizeze paginile disponibile în indexul motoarelor de căutare. Pentru a nu analiza manual distribuția Yandex sau Google, puteți folosi programul ComparseR. În acest articol voi lua în considerare două probleme practice în care am avut nevoie recent de acest software și în care, bineînțeles, poate fi utilă proprietarilor de site-uri și optimizatorilor:







  1. Eliminarea paginilor rupte care au lovit indicele după descărcarea de la 1C cu coduri eronate simbolice ale secțiunilor și bunurilor;
  2. Realizarea unei hărți de redirecționare atunci când îmbinați secțiunile unui site.

Eliminarea paginilor rupte după încărcarea incorectă de la 1C

Unul dintre clienții care au comandat promovarea site-ului. în cursul lucrărilor de optimizare, a continuat să perfecționeze descărcarea mărfurilor de la 1C. În acest sens, fiecare director de descărcare a modificat codurile de caractere ale elementelor. Pentru ei a fost adăugată o particulă de "_1", "_2", etc. În același timp, fiecare încărcare a reușit să fie indexată parțial.

Rezultatul: avem aproximativ 4000 de pagini în index, din care 3.600 au fost rupte și au dat 404 erori.

Nu este niciun secret pentru nimeni că Yandex și Google au o restricție privind parsarea emiterii a 1000 de articole. Aici ne confruntăm cu prima problemă: cum să împrăștiem 4 000 de pagini cu o limită de 1000? În acest caz, ComparseR vine la salvare.

Parsarea peste 1000 de rezultate ale emiterii de Yandex și Google folosind mai mult

Acest lucru se întâmplă doar din cauza limitării a 1000 de pagini de analiză a problemei. În cazul construirii unui arbore, ComparseR poate ocoli această limită interogând căutarea fiecărei secțiuni a site-ului separat. Pentru a face acest lucru, executați parsarea utilizând metoda forței brute cu numărul minim de solicitări. În cazul meu, trebuia să rulez de 4 ori înainte ca toate paginile din index să fi fost colectate.







Parsarea peste 1000 de rezultate ale emiterii de Yandex și Google folosind mai mult

Noi trimitem toate paginile inexistente la eliminarea folosind funcția "Add / Remove URL" și lăsați site-ul indexat.

Desenarea unei hărți de redirecționare atunci când îmbinați secțiuni ale site-ului

Magazinul online avea secțiuni diferite pentru clienții de retail și corporate. În același timp, sortimentul lor a fost intersectat de aproximativ 40%, iar restul de 60% din bunuri. secțiunea ar putea să vină și în clienți la îndemână și cu amănuntul. Sa hotărât să le combinăm și, pentru a nu pierde publicul din căutarea care mergea la secțiunea corporativă, configurați 301 redirecționări.

Sarcina pare a fi elementară, dacă nu este complicată de client. Grabind, fără a acorda atenție avertismentelor, clientul a transferat bunurile secției corporative către sucursalele de retail (apropo, această secțiune avea o structură de directoare diferită) și le-a scos bunurile din catalogul corporativ împreună cu secțiunile.

Bineînțeles, numărul de achiziții a scăzut brusc, deoarece oamenii au venit din căutarea a 404 de pagini, iar programatorii nu au putut face nimic, deoarece nu exista nimic comparabil în secțiunea corporativă cu cea de vânzare cu amănuntul.

Din fericire, ComparseR după versiunea 1.0.77 a învățat să facă cereri arbitrare de livrare. Asta ne-a salvat. Paginile produselor din secțiunea corporativă au fost indexate în jurul valorii de 1.800, structura corectă pentru a construi un copac, de asemenea, nu a rămas datorită eliminării directorului corporativ. A trebuit să iau pagina secțiunii din cache-ul Yandex și să copiez manual toate subsecțiunile subsecțiunilor sale.

După aceea, trimitem cereri aleatorii la rândul lor la ambele motoare de căutare:

Parsarea peste 1000 de rezultate ale emiterii de Yandex și Google folosind mai mult

Rezultatul este o listă de pagini indexate în motoarele de căutare. Descărcați în Excel. Inițial, a fost făcut un scenariu care a comparat mărfurile cu codurile simbolice, dar, din păcate, sa dovedit că codurile de caractere ale unor elemente au fost schimbate, dar numele au rămas aceleași. Dezasamblam titlul în bucăți, eliminând elementele șablonului din acesta.

Rezultatul a fost o listă gata de nume de produse, conform căreia programatorii au scos deja urlul corect al articolelor mutate în secțiunea de vânzare cu amănuntul și le-au comparat cu o listă de pagini sparsey. Problema este rezolvată.







Trimiteți-le prietenilor: