Codificarea informațiilor despre text

proces de calculatoare moderne nu numai numeric, ci și de text, cu alte cuvinte - informațiile alfanumerice care să conțină cifre, litere, semne de punctuație, matematice și alte simboluri. Un astfel de caracter are caracter economic, de planificare și de producție, informații contabile, precum și texte de programe în limbi algoritmice etc. Pentru a reprezenta astfel de informații, sunt necesare cuvinte de lungime variabilă.







Totalitatea tuturor simbolurilor folosite în sistemul informatic este alfabetul său. Se folosesc diferite tipuri de codificare a caracterelor, folosind coduri de lungimi diferite.

Informațiile despre afaceri conțin în medie aproape două ori mai multe cifre decât literele. Prin urmare, împreună cu sistemul general de codificare caractere alfanumerice (numere zecimale, litere și alte caractere) într-un magazin de calculator ca un sistem de codificare separat pentru date constând numai din cifre zecimale.

Cea mai răspândită este reprezentarea informațiilor alfanumerice folosind silabe pe 8 biți numite octeți. Folosind un octet, poți codifica 256 caractere diferite (cod ASCII). Computerele pot procesa informații reprezentate în formă numerică. Literele de intrare sunt codificate prin anumite numere, iar atunci când sunt emise pentru citire (pe un ecran, imprimantă etc.), pentru fiecare număr (codul simbolului) este construită o imagine simbolică.

Bazat pe codarea de caractere pe 16 biți (dublu-byte), sistemul este denumit universal - UNICODE. Șaisprezece biți vă permit să furnizați coduri unice pentru 65.536 de caractere diferite - acest câmp este suficient pentru a plasa într-o singură masă simbolurile majorității limbilor planetei.

Pentru reprezentarea caracterelor alfanumerice în memoria calculatorului și mass-media de stocare la mainframe, și în unele alte mașini folosite cod binar pentru prelucrarea informațiilor (DKOI) și microprocesoare, PC și microcalculatoare - avansat în detrimentul literelor codului alfabetului ASCII rus. În rețele de calculatoare în Rusia și în sectorul rus al internetului este larg răspândită KOI-8 (cod pentru schimbul de informații, un opt). O altă codificare pentru caracterele de limbă rusă Windows-1251 a fost introdusă de Microsoft, fiind utilizată pe un număr de computere locale care rulează într-un mediu Windows.

Informațiile alfanumerice sunt reprezentate de cuvinte cu lungime variabilă, care conțin numărul necesar de simboluri de octeți (de obicei de la 1 la 256 de octeți).







Pentru a simplifica automatizarea procesării datelor, se aplică principiul de ponderare a codării caracterelor. Un număr binar care corespunde codului unui simbol este denumit greutatea sa. Pentru codificarea în greutate, greutatea codurilor digitale este mărită succesiv, iar greutatea codurilor literelor este mărită în ordine alfabetică. Greutatea literei B este mai mare decât greutatea codului literei A și așa mai departe.

Dacă este necesar să se aranjeze o listă de nume în ordine alfabetică, atunci cu principiul de ponderare al codării, această operație poate fi efectuată de către un calculator prin compararea numerelor binare corespunzătoare imaginilor de cod ale numelor de familie.

Pentru a economisi capacitatea de memorie și pentru a facilita efectuarea operațiilor aritmetice pe numere zecimale în mașinile cu reprezentare a informațiilor octetizate, sunt furnizate formate speciale pentru numere zecimale:

2) ambalate ("împachetate")

numere zecimale 0, 1, 2. 9 reprezentate în binar formă zecimală codificate - cod 8421, în care o cifră zecimală este reprezentată printr-un număr binar pe 4 biți corespunzător. Combinațiile neutilizate de coduri pe 4 biți (1010-1111) servesc la codarea caracterelor și a caracterelor de serviciu.

Codul 8421 este convenabil pentru ca mașina să efectueze conversii de la sistemul zecimal la binar și invers. Acest cod este aditiv, adică suma reprezentărilor a două cifre este codul sumei lor. Cu toate acestea, utilizarea acestui cod este asociată cu dificultățile de detectare a transferului la următoarea zecimală și cu complexitatea trecerii la codurile inverse și adiționale pentru numerele zecimale, facilitând executarea adăugării algebrice.

Pentru un format de bandă în fiecare octet conține doar o cifră zecimală și o marcă de serviciu (zona), cu patru octeți de descărcare din dreapta folosite pentru a reprezenta numere zecimale în BCD, și patru stânga au ocupat un cod special de 4 cifre, numit o zonă.

Byte-ul redus în acest format constă din codurile de caractere și din zecimalele inferioare ale numărului.

În DCOI este obișnuit să codificați: plus - 1100, minus - 1101 și zone - 1111.

Numărul - 6.285 în formatul zecimal din zonă are formularul

11110110 11110010 11111000 1101 0101

Informațiile despre locația punctului zecimal (puncte) sunt fixate în programul sarcinii.

Când se codifică un număr zecimal nesemnat, codul zonei este scris în patru biți din stânga octetului de ordin scăzut.

În octetul ambalat, este posibil să se plaseze două cifre zecimale într-un octet. Un număr zecimal ia întotdeauna un număr întreg de octeți. Codul de semn este localizat în cei patru biți din dreapta octetului de ordin scăzut. Dacă cele patru cifre din stânga celui mai din stânga (cel mai înalt) byte sunt libere, ele sunt umplute cu zerouri.

Numărul 6285 în format zecimal în ambalaj are forma

0000 0110 0010 1000 0101 1101

Formatul ambalat este utilizat atunci când se efectuează operații pe cifre zecimale. Rezultatul este obținut și în acest format. Numerele implicate în operație pot avea o lungime inegală. Ele sunt tratate ca întregi, aliniate la ordinea inferioară. Formatul cu zona este utilizat pentru operațiile de intrare / ieșire a datelor zecimale.

În computerele care utilizează formate despachetate și ambalate, există instrucțiuni pentru conversia numerelor zecimale de la formatul zonal la ambalate și înapoi.

Programatorul scrie datele în forma obișnuită. Traducerea din acest formular la reprezentarea internă se efectuează în timpul procesului de introducere a datelor. În ieșirea de informații, aceleași utilități efectuează o traducere inversă.







Articole similare

Trimiteți-le prietenilor: