Parserul experienței de scriere a magazinului online

Bună ziua, draga utilizator. Eu, în calitate de programator, am avut o sarcină interesantă - să distrug 20 de mii de articole de pe site-ul unui bine-cunoscut magazin online. Înainte de asta, a trebuit să fac parserii numai în scopuri educaționale. Sarcina a fost interesantă și nouă pentru mine. Prin urmare, după ce ați urmat site-ul lui Serghei Brinn, servitorul tău umil a pornit să lucreze. Dezvoltați un program de parcare pentru un magazin online.







În articol, nu voi vorbi despre ceea ce este un parser, cum să învăț să programezi în 21 de zile, cum să surprinzi lumea și alte lucruri similare. Mai degrabă, este un studiu al instrumentelor pe care le-am folosit, al problemelor pe care le-am întâlnit și, cel mai important, al rezultatelor obținute.

Parserul parserului de pe internet în PHP: probleme și soluții

Pentru dezvoltarea parser (și, de fapt, Grabber magazin online) a ales limbajul PHP în calitate de client este necesar integrarea cu magazinul online, este scris în această limbă. La școală am fost adesea forțați să folosim expresii regulate pentru parsare. Dar această idee a fost abandonată imediat, ca o nebunie absolută. Biblioteca HTML SIMPLE DOM a fost selectată. Pe ea a fost o grămadă de informații pe Internet, astfel încât problemele cu analiza sa a apărut. De PHP, în plus față de elementele de bază, a fost necesar pentru a înțelege activitatea unei adrese URL. Toate lucrările a fost efectuată cu serverul local, așa că a trebuit să pună pe LAMP Ubuntu. Acest lucru mi-a fost de ajuns pentru a împlini TOR.







Prima problemă care a apărut este limitarea numărului de solicitări către site-ul donatorului. Serverul a crezut că parserul meu a încercat să o jabbească. Vindecat prin cod

care a avut un efect foarte negativ asupra vitezei de execuție. Prasper a adormit timp de 4 secunde după ce a citit informații despre un singur produs. Timpul a fost ales de experiență.

Atunci destul. În caz contrar, ar putea jura pe lipsă.

Pe site-ul donatorului și în baza de date a site-ului meu au fost codificări diferite. Sa dovedit, când un număr bun de bunuri era deja spargător. Cu o astfel de probabilitate ar fi mai bine să gândim în avans.

Dar cea mai importantă problemă este vulnerabilitatea la schimbările de pe site-ul donatorului. Dacă TAM dorește să schimbe, de exemplu, numele clasei HTML - în parser, acest lucru trebuie, de asemenea, făcut. Deci, fără sprijinul acestei aplicații este probabil să nu funcționeze corect pentru o lungă perioadă de timp.

Când există întrebări privind promovarea site-urilor. promovarea de magazine online, inclusiv soluții pentru analiza conținutului magazinelor online Puteți apela tel. (095) -300-57-57.

Evaluare: 4/5







Trimiteți-le prietenilor: