Informatică, codificare text

Capitolul 3
Codificarea textului

În acest capitol, repetăm ​​modul în care textul este codificat în calculatoare.

Știți deja cum puteți codifica numerele. Nu există probleme cu codarea oricăror alte informații reprezentate de un set limitat de caractere - alfabetul. Pentru aceasta, este suficient să numerotați toate caracterele acestui alfabet și apoi să notați numerele corespunzătoare din memoria calculatorului (și, desigur, procesul).







Când codificarea textului pentru fiecare dintre simbolurile sale este alocată, de obicei, 1 octet. Acest lucru vă permite să utilizați 2 8 = 256 de caractere diferite. În general, corespondența dintre un simbol și codul său poate fi aleasă destul de arbitrar. Cu toate acestea, în practică este necesar să puteți citi textul creat pe un alt computer pe un singur computer. Prin urmare, tabelele de codificare încearcă să se standardizeze. Aproape toate tabelele utilizate în prezent se bazează pe ASCII „standardul american de informații de cod de schimb“ 5. Acest standard definește valorile pentru jumătatea inferioară a tabelului de cod - primele 127 de coduri (coduri de 32 de control, aritmetice de bază și alte simboluri, numere și litere). Ca rezultat, aceste caractere sunt afișate corect, indiferent de codificarea pe un anumit computer. Situația este mai gravă cu simbolurile "naționale" și cu semnele de punctuație "tipografice". Și mai ales nu este norocos cu limbile care folosesc alfabetul chirilic (rusă, ucraineană, belarusă, bulgară etc.). De exemplu, cinci tabele de codificare sunt acum utilizate pe scară largă pentru limba rusă:

  • CP866 (DOS-alternativă) 6 - pe computerele compatibile PC-uri atunci când lucrează cu sisteme de operare DOS și OS / 2, precum și în rețeaua internațională de amatori Fido (Fidonet).
  • CP1251 (Windows-encoding) - compatibil cu PC-ul când rulează în Windows 3.1 și Windows 95
  • KOI-8r este cea mai veche codificare utilizată până acum. Utilizat pe computerele care rulează UNIX, este standardul actual pentru textele rusești de pe Internet.
  • Macintosh Cyrillic - așa cum sugerează și numele, este proiectat să funcționeze cu toate limbile chirilice pe Macintosh 7.
  • ISO-8859. Această codificare a fost concepută ca un standard internațional pentru textele chirilice, dar practic nu se aplică pe teritoriul Rusiei.






De fapt, problema nu este atât de mare. Dacă știm cum este prezentat codul sursă și ce tabelă este folosită de calculatorul nostru, conversia este foarte ușor de efectuat - trebuie doar să modificați unele coduri pentru altele (conform tabelului de conversie). În acest scop sunt utilizate programe speciale - convertoare de text. În ultimul timp, există convertoare care pot determina independent codarea originală a textului și chiar știu cum să "decodeze" textul după mai multe transcodări incorecte.

Coduri hexazecimale pentru unele litere

Apropo, rețineți că există fonturi speciale (așa-numitele dingbats), care nu conțin litere, ci simboluri speciale, de exemplu, matematice sau muzicale; elemente de ornamente, pictograme.

Acum, când cantitatea de memorie a calculatorului a crescut enorm, nu este nevoie să economisiți prea mult atunci când codificați textul. Vă puteți permite "luxul" să cheltuiți de două ori mai multă memorie pentru stocarea textului (alocarea pentru fiecare caracter nu este 1, ci 2 octeți). În acest caz, este posibil să se plaseze în tabela de codificare - fiecare în locul lui - nu numai scrisoarea alfabetelor europene (latin, chirilic, greacă), dar, de asemenea, literele arabă, georgiană și multe alte limbi, și chiar și cele mai multe dintre caracterele japoneze și chineze. La urma urmei, doi octeți pot stoca deja un număr de la 0 la 65535.

2-byte codificare internațională Unicode. dezvoltat acum câțiva ani, acum începe să fie pus în aplicare în practică.

Întrebări de test

  1. Cum este textul codificat pe computer?
  2. Deschideți un fișier text și veți vedea pe ecran un set de caractere fără sens. Cu ce ​​poate fi conectat? Ce acțiuni trebuie luate pentru a citi textul?
  3. Care sunt avantajele și dezavantajele codificării Unicode?

notițe

  1. ASCII - Codul Standard American pentru schimbul de informații
  2. Mai precis, o alternativă modificată. Acest nume a fost păstrat din acele momente în care, în plus, au existat, de asemenea, "codificarea GOST principală" și "codificarea GOST alternativă"
  3. În mod surprinzător, însă: faptul că, la elaborarea acestei codificări, o literă a alfabetului ucrainean nu a fost luată în considerare. Prin urmare, limba ucraineană este singura limbă chirilă pentru care Macintosh are propriile codificări separate - Macintosh ucrainean






Articole similare

Trimiteți-le prietenilor: