Cum să furiți site-urile în mod corespunzător

Uneori doriți să publicați informații pe site, pe care nu le puteți obține. De exemplu, prognoza meteo sau cele mai recente știri din lume. Din păcate, nu toată lumea poate prezice vremea singură (mai ales dacă este mai mult sau mai puțin adevărată), deci există o cale de ieșire: luați aceste informații dintr-o sursă sigură. Desigur, nimeni în mintea lor nu va copia în fiecare zi prognoza de pe un site solid și o va pune pe cont propriu, manipulând codurile sursă ale paginii. Mulți oameni încearcă să automatizeze acest proces și să scrie programe numite în mod obișnuit grabbers. Ce trebuie să vă amintiți atunci când dezvoltați un grabber?







De ce ai nevoie pentru a începe?

Running grabber: periodicitate și metode.

Deci, am învățat expresiile regulate și chiar am scris cererea noastră. Dar grabberul nu are sens dacă nu îl porniți periodic. Cât de des - depinde de scopuri și oportunități. De exemplu, dacă furiți o previziune meteo, atunci este suficient să rulați grabber o dată pe zi. Dacă aceasta este o știre dintr-un site rar, atunci probabil că va fi suficient să rulați grabberul la fiecare câteva zile sau săptămâni.

De aici urmează întrebarea: cum conduceți grabberul? În primul rând, trebuie să vă amintiți imediat că pornirea unui grabber de fiecare dată când încărcați o pagină este rău pentru viteza încărcării site-ului și pentru server. În plus, dacă nu împrumutați cu onestitate conținut, atunci va fi mai ușor de calculat. Prin urmare, există două opțiuni pentru pornire: manual și de către cron. Prima metodă poate fi potrivită dacă distrugi un site rar reinnoit. A doua metodă este potrivită pentru site-ul hrabov și este cea mai automatizată.







Ce să ia de pe pagină cu un hoț?

Depinde de nevoile tale. Dacă sunteți mulțumit de marcajul utilizat pe site-ul de la care vă jefuiți, luați datele împreună cu marcajele - mai puține probleme. Dacă aveți nevoie de fișiere și legături, filtrați-le și înlocuiți-le. Dacă aveți suficient text - luați măsuri pentru filtrarea imaginilor, a link-urilor și a altor elemente care vă pot deteriora reputația :)

Plângi poze?

Dacă decideți să jefuiască totul, inclusiv imagini, este în prealabil necesar pentru a participa la locul unde imaginile vor fi stocate și, desigur, să decidă singur dacă fiecare imagine pentru a crea un fișier separat, sau fiecare imagine nouă va suprascrie pe cel pe care le aveți deja .

În plus, este necesar să se ia în considerare specificitatea obiectului carpen. Dacă este vremea cu imaginea de nor și precipitații, atunci, poate, este logic să adăugați toate aceste imagini la tine și să nu le jefuiești din nou. Dacă am deja un nor, de ce ar trebui să-l rog din nou?

Cum se stochează datele?

Aceasta este o problemă privată pentru toată lumea. Le puteți împinge în baza de date, le puteți stoca ca xml. Vă propun să creați date în html gata și să stocați această piesă gata de utilizat undeva în apropiere. Când creați o pagină, nu trebuie să facem o selecție din baza de date sau să analizăm xml. Va trebui doar să luăm fișierul și să-l lipim acolo unde este necesar. Rapid și supărat.

Cum puteți determina dacă site-ul a fost actualizat?

Nimeni nu dorește să înlăture baza de date cu date inutile. Când capturați casete de știri, este uneori important să evitați dublarea informațiilor. Pentru a nu lăsa baza de date, este necesar să determinați dacă am primit deja informații sau nu. Vă sugerăm să utilizați funcția md5 () în php sau crypt în Perl. Aceste funcții returnează un hash unic al parametrului șir. Este necesar să se calculeze valoarea md5 a înregistrării primite și codurile md5 ale înregistrărilor existente. Dacă se potrivesc, intrarea există deja. Dacă nu - este timpul să descărcați :)

Acestea sunt gândurile mele despre carpen. Probabil, voi scrie un articol în curând, unde vă voi arăta cum puteți să jefuiți ceva. De exemplu, emiteți Yandex, un feed RSS sau aceeași prognoză meteo. Ce este mai interesant pentru tine?

Puteți să comandați un site de grabber de orice complexitate de la mine. Costul depinde de nevoile dvs. Și în avans poți să te joci cu grabberul miracol. Acesta este un grabber universal de imagini și linkuri către interfața web.







Trimiteți-le prietenilor: