Codarea textului

Pornire puternică

Până în prezent, codificarea ASCII este standardul pentru prezentarea primelor 128 de valori (inclusiv numerele și semnele de punctuație) ale alfabetului englez, prezentate într-o anumită ordine.







Codarea textului

Cu toate acestea, chiar și 1 octet permite codarea de 2 ori mai multe valori, adică nu 128, dar până la 256 valori diferite. Prin urmare, suficient de rapid pentru a înlocui ASCII de bază au început să apară versiuni mai avansate ale acestui faimos și popular la această codificare zi în care codificate de caractere de litere și, în consecință, textul diferitelor limbi, inclusiv rusă.

Extensii ASCII pentru Rusia

Astăzi, pentru utilizatorii ruși, prioritatea este codificarea Windows1251 și codificarea Unicode, precum și UTF 8. care provine din ASCII.

Strict vorbind, cineva poate avea o întrebare foarte corectă: "De ce avem nevoie de aceste codări de texte?"
Merită să ne amintim că un computer este doar o mașină care trebuie să acționeze conform instrucțiunilor. Pentru a clarifica ce trebuie să faceți cu fiecare caracter scris, acesta este reprezentat ca un set de forme vectoriale, fiecare set din care trimite la locul potrivit, astfel încât pe ecran să apară o anumită notație.

Fonturile sunt responsabile de formarea formelor vectoriale, iar procesul de codare depinde în sine de sistemul de operare, precum și de programele utilizate în acesta. Astfel, fiecare text este în mod inerent un anumit set de octeți, în fiecare dintre ei este reprezentat un cod de caracter al unui singur caracter. Un program care afișează informații imprimate pe ecran (poate fi un browser sau un procesor de text), analizează codul, găsește un afișaj potrivit cu codul său în tabela de codificare, îl convertește în formularul vectorial necesar și îl afișează într-un fișier text.







Codificarea CP866 și KOI8-R a fost folosită pe scară largă până la apariția unui sistem de operare grafic, care a devenit popular în întreaga lume - Windows. Acum, cea mai populară codificare care suportă limba rusă, a fost Windows1251.

Codarea textului

Cu toate acestea, nu este singurul, astfel încât producătorii de fonturi rusești utilizate în software-ul din timp în timp, chiar se vedea în continuare dificultățile asociate cu afișarea incorectă a simbolurilor, precum și apariția unor așa-numite fără sens. Aceste hieroglife ciudate sunt rezultatul utilizării incorecte a tabelelor de codificare, adică au fost folosite diferite tabele pentru codificare și decodare.

Aceeași situație are loc și pe site-uri web, pe bloguri și pe alte resurse, în care există informații în caractere ruse și alte personaje străine, altele decât engleza. Această situație a determinat principala condiție pentru crearea unei codări universale, care permite codarea textului în orice limbă, chiar și în limba chineză, unde personajele sunt mult mai mari decât 256.

Codificări universale

Prima versiune a codificării universale dezvoltată în cadrul consorțiului Unicode a fost codarea UTF 32. Pentru a codifica fiecare caracter, s-au folosit 32 de biți. Acum a apărut posibilitatea de a codifica un număr imens de personaje, dar a apărut o altă problemă - majoritatea țărilor europene nu aveau absolut nici o nevoie de astfel de simboluri. La urma urmei, documentele s-au dovedit a fi foarte dificile. Prin urmare, UTF 32 a înlocuit UTF 16. A devenit baza tuturor simbolurilor folosite în țara noastră și nu numai.

Codarea textului

Dar totuși au fost mulți nemulțumiți. De exemplu, cei care au vorbit numai în limba engleză, ca și când s-au mutat de la ASCII la UTF16, documentele lor au crescut încă în dimensiune, și în mod semnificativ, aproape de două ori.
Ca rezultat, a apărut codificarea UTF 8 cu lungime variabilă, ceea ce a permis să nu se mărească greutatea textului.

Krakozyabry și metodele de combatere a acestora

În general, codificarea este specificată pe pagina unde este creat mesajul informativ în sine. Ca rezultat, la începutul documentului se formează o etichetă unică, în care codurile de caractere UTF16 sunt stocate în ordine inversă sau inversă.

Dacă a fost scris ceva în UTF-8. atunci nu există niciun marcator la început, deoarece lipseste chiar posibilitatea de a scrie codul caracterelor în ordine inversă în această codificare.

Un alt sfat util pentru a combate krakozyabrami - înregistra în antetul fiecărei pagini de informații de cod privind codificarea corectă a textului la orice gazdă local sau pe serverul nu a fost o confuzie.

Articole similare:







Articole similare

Trimiteți-le prietenilor: