Metodă alfabetică pentru estimarea cantității de informații

O abordare semnificativă pentru evaluarea cantității de informații. pe care am considerat-o mai devreme, măsoară cantitatea sa, ca o reducere a incertitudinii cunoștințelor noastre.







Principiul abordării alfabetice pentru estimarea cantității de informații

Abordarea alfabetică se bazează pe principiul că orice mesaj poate fi reprezentat sub formă de coduri folosind o succesiune finită de simboluri conținute în orice alfabet. Purtătorii de informații conțin orice secvențe de simboluri care pot fi stocate, transmise și prelucrate atât prin mijloace umane, cât și prin mijloace tehnice, în special prin intermediul unui computer. Această abordare a fost descrisă de A.N. Kolmogorov, conform căruia informativitatea, constând într-o succesiune de simboluri, nu poate depinde de conținutul mesajului însuși, ci poate fi determinată numai de numărul minim de simboluri necesare pentru codificarea sa. O astfel de abordare a estimării cantității de informații este de natură obiectivă, deoarece nu depinde de faptul că destinatarul primește mesaje. Semnificația acelorași mesaje poate fi luată în considerare numai în etapa de selectare a alfabetului de codificare sau nu este luată în considerare deloc.

Rezolvați controlul la toate subiectele. 10 ani de experiență! Prețul este de la 100 de ruble. termen de la 1 zi!

Cea mai ușoară modalitate de a înțelege acest lucru este de a examina un exemplu de text scris în orice limbă. Pentru noi, desigur, textul în limba rusă va fi convenabil.

Puterea alfabetului și capacitatea de informare. Formula lui Hartley

Toate seturile de simboluri care alcătuiesc o limbă pot fi denumite în mod tradițional un alfabet. De regulă, doar literele sunt însemnate prin alfabet, dar, cu excepția lor, atunci când se scriu texte, se utilizează semne de punctuație, numere, paranteze, spații și, la rândul lor, pot fi incluse în alfabet.

Astfel, alfabetul este setul de caractere utilizate la scrierea textului.

Puterea (dimensiunea) alfabetului este numărul total de caractere din alfabet.

Puterea alfabetului este notată cu litera $ N $.

Puterea alfabetului, alcătuită din litere ruse (alfabet chirilic), este de $ 33;

puterea alfabetului, constând din litere latine - $ 26 $;

puterea alfabetului textului tastat de la tastatura calculatorului este de $ 256 $ (litere latine și ruse litere mici, majuscule, semne de operații aritmetice, paranteze, semne de punctuație etc.);

Puterea alfabetului binar este de $ 2 $.

În abordarea alfabetică, se crede că fiecare simbol al textului poartă o anumită capacitate de informare, care, la rândul său, depinde de puterea alfabetului.

Alfabetul folosit pentru a scrie un mesaj este format din caractere $ N $. În cel mai simplu caz, cu lungimea codului mesajului egal cu un caracter, expeditorul poate trimite unul dintre mesajele $ N $ posibile care vor purta cantitatea de informații egală cu $ I $, conform formulei:

unde $ N $ este numărul de caractere din alfabetul sistemului de semne,

$ I $ este cantitatea de informații pe care fiecare semn o poartă.

Această formulă a fost derivată de R. Hartley, care în anii de 20 de ani ai secolului trecut a pus bazele teoriei informației, care a determinat măsurarea cantității de informații în rezolvarea anumitor probleme.

Hartley a argumentat că cantitatea de informații conținute în mesaj poate fi afectată de factorul surprinzător, care, la rândul său, depinde de probabilitatea primirii mesajului. Dacă această probabilitate de a primi un mesaj este mare, dar neașteptate este scăzută, mesajul va conține informații utile pentru persoana respectivă.







Cu toate acestea, atunci când a creat formula sa, R.Hartley a exclus complet factorul de surpriză. Formula Hartley funcționează numai atunci când apariția simbolurilor este la fel de probabilă și este independentă din punct de vedere statistic.

De exemplu, utilizând formula de mai sus, puteți determina cantitatea de informații pe care semnul le transmite în sistemul binar:

Capacitatea de informare a semnului sistemului binar este de 1 biți.

Este necesar să se determine capacitatea de informare a literei alfabetului rusesc (fără litera "e").

Imaginați-vă că textul vine la noi în mod consecvent, un personaj, ca o bandă de hârtie ce se târăsc din unitatea de telegraf. Să presupunem că fiecare simbol care apare pe bandă poate fi orice simbol al alfabetului cu probabilitate egală. De fapt, acest lucru nu este chiar așa, dar pentru simplitate acceptăm această presupunere.

Oricare dintre simbolurile $ N $ poate apărea în fiecare poziție următoare a textului. Apoi, în conformitate cu formula cunoscută de noi, fiecare astfel de simbol poartă o cantitate de informație egală cu $ I $ biți, care poate fi determinată din soluția ecuației:

Capacitatea de informare a literei alfabetului rusesc este de 5 $ biti de informații.

Astfel, formula pentru determinarea $ N $ corelează numărul de evenimente posibile și cantitatea de informații care conțin mesajul primit. În problema de mai sus, $ N $ este numărul de caractere din alfabetul rus, iar $ I $ este cantitatea de informații pe care o poartă o literă.

Mesajul constă într-o secvență de semne, fiecare purtând o anumită cantitate de informații.

Cantitatea de informații din mesaj poate fi determinată utilizând formula:

unde $ I_c $ este cantitatea de informații conținute în mesaj;

$ I $ este cantitatea de informații transmise de un semn (capacitatea de informare);

$ K $ este numărul de caractere din mesaj.

Este necesar să determinați cât de multe informații conțin cuvântul "Bună ziua". dacă presupunem că alfabetul este format din litere de $ 32 $ (fără litera "e")?

Soluția. Pentru a rezolva problema, stabiliți mai întâi numărul de caractere din mesaj și puterea alfabetului utilizat.

Numărul de caractere din mesaj: $ K = 6 $,

iar puterea acestui alfabet este $ N = 32 $.

Este necesar să determinați cât de multe informații conțin cuvântul "Bună ziua".

Pentru a face acest lucru, multiplicați cantitatea de informații care poartă un semn ($ I $) cu numărul de caractere din mesaj ($ K $), adică utilizați formula: $ I_c = K \ cdot I $.

Cu toate acestea, nu putem folosi această formulă, deoarece nu știm cât de multe informații poartă un semn ($ I $).

Pentru a rezolva problema, folosim formula Hartley. Mesajul este scris folosind un alfabet a cărui putere este de $ 32 $, adică $ N = 32 $.

Rezolvând ecuația utilizând formula $ N = 2 ^ I $, am obținut cantitatea de informații $ I = 5 $ biți. Cunoscând cantitatea de informații care conține un caracter al alfabetului nostru și numărul de caractere din mesaj, puteți stabili cât de multe informații conține mesajul nostru.

Deci: $ I_c = K \ cdot I = 6 \ cdot 5 = 30 $ bit.

La măsurarea informațiilor, este convenabil să se folosească dimensiunea alfabetului $ N $, care este egală cu întreaga putere a două. De exemplu, dacă $ N = 16 $, atunci înseamnă că fiecare simbol poartă un bit de informație de $ 4 $, din moment ce $ 2 ^ 4 = 16 $.

Unități de informații

Limitarea dimensiunii maxime a alfabetului nu există teoretic. Cu toate acestea, există un alfabet care poate fi numit suficient. Se utilizează atunci când lucrați cu un computer. Puterea acestui alfabet este de $ 256 $ caractere. Cuprinde aproape toate simbolurile necesare: litere latine și ruse, numere, semne de operații aritmetice, toate tipurile de paranteze, semne de punctuație.

Din moment ce $ 256 = 2 ^ 8 $, rezultă că simbolul $ 1 $ al acestui alfabet conține $ 8 $ biți de informații. Această valoare stă la baza utilizării tehnologiei informatice și se numește octet.

Folosind acest alfabet, care este numit și tabelul cu coduri ASCII, puteți calcula cu ușurință cantitatea de informații din text. În acest caz, caracterul $ 1 $ al alfabetului conține $ 1 $ octet de informații, deci trebuie doar să determinați numărul de caractere, numărul pe care îl obțineți ca rezultat și veți exprima volumul de informații al textului în octeți.

Să presupunem că o carte mică, tipărită pe imprimantă, conține pagini de $ 50, în timp ce pe fiecare pagină există linii de $ 50 $, pe fiecare rând - simboluri de $ 60 $.







Articole similare

Trimiteți-le prietenilor: