Cum se face o căutare statică a site-ului

Gazduirea blogurilor statice, cum ar fi paginile GitHub, este o modalitate foarte populară de a crea cu ușurință bloguri la nivelul CMS la scară largă. A doua situație, mai populară printre webmasterii prezenți, este un site web scos din webarchy, care, prin definiție, nu poate fi dinamic. Unul dintre principalele dezavantaje ale acestor site-uri este că nu există o modalitate simplă și sigură de a oferi o căutare funcțională.







Cum se face o căutare statică a site-ului


Din fericire, cu câteva instrumente gratuite, puteți crea cu ușurință o căutare dinamică a site-ului dvs. static. Să ne uităm la crearea pas cu pas a unei astfel de căutări.

În primul rând, va trebui să utilizați serviciul import.io Crawler. Pentru a capta tot conținutul site-ului dvs. și a crea un index, apoi căutați-l.

Au trimis lecții pe site. care vă va prezenta la crearea Crawler-ului, dacă nu ați auzit niciodată de el înainte.

Atunci când creați un crawler sub blogul dvs., puteți crea coloane pentru "titlu" și "subtitlu", care vor fi căutate; sau vă puteți ridica tot conținutul folosind coloana „imagini“ (Tip imagine), „conținut“ (Șir de tip) și „link-uri“ (tip LINK), care va afișa toate imaginile, textul și link-urile de pe pagina.

În același timp, puteți antrena o singură coloană și puteți lua doar câteva paragrafe:

Iată un exemplu de configurare a scanării blogului meu:

Cum se face o căutare statică a site-ului


Pasul 2: găsiți furnizorul pentru index

În căutarea unei modalități rapide de a efectua un index de căutare al blogului meu, am decis să încerc FacetFlow. Nu numai că folosesc indicii Elasticsearch. astfel încât acestea au, de asemenea, o nisip bun, care vă permite să stocați până la 5000 de documente sau până la 500 MB de date.

După ce v-ați înregistrat, acestea vor afișa setările de conexiune cu serviciul:

Cum se face o căutare statică a site-ului








Pasul 3: Creați un index

Pentru a vă ajuta să creați un index cu parametrii necesari, am scris mai multe utilitare în Python.
Copiați magazia pe computer, apoi configurați pentru a se potrivi datele Facetflow: copiați „es.json.template“ fișier în „es.json“ și introduceți datele. Va trebui să schimbați "host" și să faceți cheia API Facetflow în câmpul "credentials: username".

Am creat afișarea principală a indexului Elasticsearch în "index_mapping.json" - îl poți schimba dacă vrei sau îl poți lăsa așa cum este.

(De asemenea, există "delete_index.py" - un script care va șterge indexul și datele dacă aveți nevoie de el)

Pasul 4: Indexarea conținutului

Acum, când am creat scanerul și indicele de căutare este pregătit pentru date, este timpul să pornim crawlerul și să umpleți indexul cu conținut de căutare.

Există mai multe fișiere de configurare pe care trebuie să le configurați în acest scop.

Apoi, trebuie să creați o configurație de scanare. Un exemplu al acestei configurații în „crawl.json.example“, dar acesta este un exemplu pentru a scana blog-ul meu - puteți obține „crawl.json“ fișier pentru propria deschidere crawling import.io instrument, și alegerea în cazul în care setările de export:

Cum se face o căutare statică a site-ului


Fișierul de configurare finală este creat pe „mapping.json.template“ baza - dacă utilizați aceleași nume de coloane pe care le-am subliniat mai sus, puteți să copiați fișierul în „mapping.json“. Dacă aveți nume de coloane puțin diferite, puteți schimba acest fișier în funcție de numele coloanei.

Deci, dacă aveți auth.json, crawl.json, es.json, index_mapping.json și mapping.json, atunci totul este setat pentru a lansa un local pe șenile Elasticsearch de date indicele Facetflow.

Mai întâi de toate, trebuie să rulați scriptul Python - "Server.py". Se uită prin paginile de date pe care crawler-ul le găsește import.io și apoi le trimite către Facetflow.

După aceea, executați crawlerul import.io. Pentru a porni linia de comandă a serviciului există o instrucțiune extinsă.

După pornirea crawlerului, acesta vă va afișa paginile de date de pe linia de comandă. Acestea sunt liniile create de scenariu, care vă informează despre modul în care le procesează și le trimite la indexul Elasticsearch.

La finalizarea acestui proces, crawler import.io afișează mesajul „crawl de terminat“, și apoi ieși - poți opri acum un script Python (Ctrl + C). Facetflow ar trebui să afișeze posturile dvs. în panoul de control:

Cum se face o căutare statică a site-ului


Ori de câte ori aveți nevoie pentru a re-indexarea conținutului (de exemplu, modificați de blog, sau pentru a crea altele noi), puteți repeta ultimele două etape. Deoarece buclă utilizează adresa URL a paginii ca un ID, actualizările vor fi procesate corect, iar toate noile modificări vor fi reindexate corect. Puteți chiar să o executați ca o sarcină server planificată pentru a actualiza automat indexul.

Pasul 5: Căutați conținut

Acum că ați indexat conținut, este timpul să-l găsiți! Facetflow vă arată câteva exemple despre cum puteți face acest lucru, dar dacă doriți să utilizați pe deplin puterea Elasticsearch, utilizați o adresă de căutare ca aceasta:

Cum se face o căutare statică a site-ului







Articole similare

Trimiteți-le prietenilor: