3 Un exemplu de parcurgere a unui fișier html în java folosind jep

3 exemple de partajare a unui fișier HTML în Java folosind JSoup.

3 Exemple de parsarea fișierului HTML în Java folosind Jsoup

Când am dat peste asta, am fost sigur că soluția ar fi o bibliotecă open-source care să îndeplinească funcționalitatea de care am nevoie, dar nu știam că ar fi la fel de minunată și multifuncțională ca JSoup. Nu oferă doar suport pentru citirea și parsarea fișierelor HTML, atributelor, claselor CSS în stilul jQuery, dar în același timp vă permite să le modificați. Folosind JSoup, poți face orice cu un document HTML.







Ce este JSoup.

Jsoup este o bibliotecă open-source Java pentru lucrul cu HTML real. Acesta oferă un API foarte convenabil pentru recuperarea și manipularea datelor utilizând cele mai bune metode DOM, CSS și JQuery. Jsoup implementează specificația WHATWG HTML5 și analizează HTML în același model DOM, ca și browserele moderne precum Chrome și Firefox.
Iată câteva dintre funcțiile utile ale bibliotecii JSoup:
  • Jsoup poate curăța și analiza codul HTML dintr-o adresă URL, fișier sau șir.
  • Jsoup poate găsi și extrage date utilizând selectorii DOM traversal sau CSS.
  • Jsoup vă permite să manipulați elemente HTML, atribute și text.
  • Jsoup oferă compensarea informațiilor furnizate de utilizator pe lista albă, pentru a preveni atacurile XSS.
  • De asemenea, Jsoup produce HTML "curat".

Jsoup este proiectat pentru a lucra cu diferite tipuri de HTML existente în lumea reală, inclusiv un HTML validat corect, cu un set de etichete incomplete neacceptate. Unul dintre principalele avantaje ale JSoup este fiabilitatea sa.
Parsarea HTML în Java folosind JSoup.


În acest tutorial vom vedea trei exemple diferite de parsare și traversare a unui document HTML în Java utilizând Jsoup. În primul exemplu, vom analiza șirul HTML care conține etichetele sub forma unui literal string Java. În cel de-al doilea exemplu, descărcăm documentul HTML de pe Internet, iar în al treilea exemplu, vom încărca propria noastră fișier HTML de încercare login.html pentru parsare. Acest fișier este un exemplu de document HTML care constă dintr-o etichetă "titlu" și o etichetă "div" în secțiunea "body" care conține formularul HTML. Formularul conține câmpuri pentru introducerea numelui de utilizator și a parolei, precum și butoanele de resetare și confirmare pentru acțiuni ulterioare. Acesta este codul HTML corect, care poate fi testat pentru "validitate", adică toate etichetele și atributele sunt închise corespunzător. Iata cum arata fisierul HTML:







Cu Jsoup este foarte ușor să parsezi HTML-ul, tot ce ai nevoie este de a apela metoda statică Jsoup.parse () și de a-ți trece șirul de HTML. Jsoup oferă mai multe metode de parse () supraîncărcate pentru a citi HTML dintr-un șir, un fișier, dintr-un URI de bază, dintr-o adresă URL și dintr-un InputStream. De asemenea, puteți specifica codificarea, pentru citirea corectă a fișierului HTML, în cazul în care nu este în formatul "UTF-8".

Metoda parse (html String) parsează intrarea HTML într-un obiect Document nou. În JSoup, clasa Document moștenește clasa Element. care extinde clasa nodurilor. De asemenea, din nodul de clasă, clasa TextNode este moștenită. Atâta timp cât treceți un șir diferit de null la metodă, vă este garantat că aveți un parsing cu succes și semnificativ, un obiect Document care conține (cel puțin) elementele "cap" și "corp". Dacă aveți un obiect Document. Puteți obține datele dorite prin apelarea metodelor corespunzătoare din clasa Document și elementul și nodul părinte.

Programul Java pentru parsarea unui document HTML.


Aici este programul nostru complet pentru parsarea unui șir HTML, un fișier HTML descărcat de pe Internet și un fișier HTML local. Pentru a le rula, puteți utiliza IDE (Eclipse sau orice altceva) sau linia de comandă. În Eclipse, este foarte ușor să copiați acest cod, să creați un nou proiect Java, să faceți clic dreapta pe dosarul "src" și să lipiți codul copiat (paste). Eclipse va avea grijă să creeze pachetul propriu-zis și fișierul cu codul sursă cu numele corespunzător, cu atât mai puține lucruri. Dacă aveți deja un proiect Java, atunci acesta este doar un pas. Programul de mai jos ilustrează trei exemple de parsare și accesare cu crawlere a unui fișier HTML. În primul exemplu, analizăm direct linia care conține HTML, în al doilea rând, fișierul HTML este descărcat de la adresa URL, în al treilea încărcăm și analizăm documentul HTML din sistemul de fișiere local.

Jsoup HTML parser va depune toate eforturile pentru a crea un parsing "curat" oferit de dvs. HTML, indiferent dacă este formatat corect sau nu. Poate gestiona următoarele erori:
  • tag-uri neîncheiate. De exemplu,
  • etichete implicite. De exemplu, cele deschise vor fi împachetate
  • Jsoup creează structuri de document de încredere (HTML conține cap și corp, în timp ce în corp doar elementele corespunzătoare)

Jsoup este o bibliotecă excelentă și fiabilă open-source care face foarte ușoară citirea documentelor html, a fragmentelor corporale, a șirurilor html și parsarea directă a conținutului web html.





Trimiteți-le prietenilor: