Cunoștințe, prelegere, rezumat și grupare de date statistice

3.3. Seriile de distribuție: tipuri, reguli de construcție, reprezentare grafică

Rezultatele grupării datelor statistice colectate sunt, de regulă, reprezentate ca serii de distribuție. O serie de distribuții este o distribuție ordonată a unităților unei populații în grupuri în funcție de trăsătura studiată.







Seria de distribuție este împărțită în atribuire și variantă, în funcție de atributul care stă la baza grupării. Dacă atributul este calitativ, atunci seria de distribuție este numită atributivă. Un exemplu al seriei atributive este distribuirea întreprinderilor și organizațiilor prin forme de proprietate (a se vedea tabelul 3.1).

Dacă criteriul pentru construirea unei serii de distribuții este cantitativ, atunci seria se numește variațional.

Seria variantă a distribuției constă întotdeauna în două părți: varianta și frecvențele corespunzătoare (sau frecvențele). O variantă este o valoare. care poate lua atributul unităților populației, frecvența - numărul de unități de observare care au această valoare caracteristică. Suma frecvențelor este întotdeauna egală cu volumul populației. Uneori, în loc de frecvență calculat frecvența relativă - această frecvență, exprimată fie ca fracție de unitate (dacă suma frecvențelor relative egale cu 1) sau ca procent din volumul total (frecvențe relative sumă va fi egală cu 100%).

Seriile variate sunt discrete și intervale. În seria discrete (tabelul 3.7), variantele sunt exprimate prin numere specifice, cel mai adesea întregi.

Tabelul 3.8. Distribuția salariaților în funcție de timpul de muncă în compania de asigurări

Timpul de lucru în companie, ani întregi (opțiuni)

În seria de intervale (a se vedea tabelul 3.2), valorile indicatorului sunt date sub formă de intervale. Intervalele au două limite: partea inferioară și superioară. Intervalele pot fi deschise și închise. Cea deschisă nu are una dintre limite, deci în tabel. 3.2 primul interval nu are limită inferioară, iar cel din urmă are o limită superioară. În construcția numărului interval, în funcție de natura variației valorilor caracteristice este utilizată ca interval intervale egale și inegale (Tabelul. 3.2 prezintă intervalul variațional la intervale egale).

Dacă atributul are un număr limitat de valori, de obicei nu mai mult de 10, construiți serii discrete de distribuție. Dacă opțiunea este mai mare, atunci seriile discrete își pierd vizibilitatea; în acest caz, este util să se utilizeze formatul intervalului seriei variate. Cu o variație continuă a caracteristicilor, atunci când valorile lor în anumite limite diferă una de alta printr-o cantitate arbitrar mică, se construiește, de asemenea, o serie de distribuție în interval.

3.3.1. Construcția unor serii variate discrete

Să luăm în considerare o tehnică de construcție a unor serii variate discrete pe un exemplu.

Exemplul 3.2. Există următoarele date privind compoziția cantitativă a 60 de familii:

2 3 3 1 4 2 3 3 1 5 2 4 3 2 2 1 2 3 4 5

2 2 1 3 4 3 3 3 6 6 3 3 6 1 3 4 3 4 4 5

3 3 2 2 1 3 2 5 5 2 4 3 6 1 2 2 3 1 3 4

Pentru a obține o idee despre distribuția familiilor pe baza numărului de membri, ar trebui construită o serie variată. Deoarece semnul are un număr limitat de valori întregi, construim o serie variată discretă. Pentru aceasta, este recomandat să scrieți toate valorile caracteristicilor (numărul membrilor din familie) în ordine ascendentă (adică să clasificați datele statistice):

1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2

2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

Pentru exemplul nostru

Intervalele seriei variate sunt evidente dacă limitele lor au valori "rotunde", astfel încât să rotunjim valoarea intervalului de la 1.9 la 2, iar valoarea minimă a semnului să fie de 12.3 până la 12.0.

  • Definiți limitele intervalelor.

    Intervalele sunt de obicei scrise astfel încât limita superioară a unui interval să fie simultan limita inferioară a intervalului următor. Deci, pentru exemplul nostru, obținem: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.







    O astfel de înregistrare înseamnă că semnul este continuu. Dacă opțiuni de caracteristică să ia o valoare strict definită, de exemplu, numai întregi, dar numărul lor este prea mare pentru a construi o serie de discret, este posibil să se creeze un interval de interval, în cazul în care slotul limita inferioară nu va coincide cu limita superioară a intervalului următor (ceea ce înseamnă că o discretă caracteristică ). De exemplu, puteți crea următorii ani de grup interval în distribuția salariaților în funcție de vârstă: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 și peste.

    În plus, în exemplul nostru, am putea face primul și ultimul interval deschis, etc. înregistrare: până la 14,0; 24,0 și mai mult.

  • Din datele inițiale, vom construi o serie clasificată. Pentru a face acest lucru, scriem în ordine ascendentă valorile atributului. Rezultatele sunt prezentate în tabel:

    Tabelul 3.13. Rata de randament a ratelor dobânzilor la băncile comerciale

    Rata băncii% (opțiuni)

    La numărarea frecvențelor, poate apărea o situație în care valoarea caracteristicilor se încadrează la limita oricărui interval. În acest caz, puteți urma regula: această unitate este atribuită intervalului pentru care valoarea sa este limita superioară. Astfel, valoarea 16.0 din exemplul nostru se va referi la al doilea interval.

    Rezultatele grupării, obținute în exemplul nostru, vom formula în tabel.

    Tabelul 3.14. Distribuția băncilor comerciale cu valoarea ratei de creditare

    Numărul de bănci, unități (Frecvență)

    Coloana finală a tabelului reprezintă frecvența cumulativă, care se obține prin însumarea secvențial frecvențele din prima (de exemplu, pentru primul interval - 5, pentru al doilea interval de 5 + 9 = 14, pentru al treilea interval de 5 + 9 + 4 = 18, etc. ) .. Frecvența acumulată, de exemplu 33, arată că în 33 de bănci rata de creditare nu depășește 20% (limita superioară a intervalului corespunzător).

    În procesul de grupare a datelor, atunci când se construiesc serii variate, uneori se folosesc intervale inegale. Acest lucru este valabil în acele cazuri în care valorile caracteristice se supun regula aritmetice sau progresiei geometrice, sau când utilizarea formulei Sturgess conduce la apariția unor grupuri „goale“ interval care conțin nici o unitate de observare audio. Apoi limitele intervalelor sunt stabilite arbitrar de către cercetătorul însuși, pornind de la bunul simț și obiectivele anchetei sau prin formule. Astfel, pentru datele care variază într-o evoluție aritmetică, valoarea intervalelor se calculează după cum urmează:

    unde ik este valoarea intervalului calculat;

    ik - 1 - valoarea intervalului precedent;

    c este constanta prin care lungimile intervalelor cresc.

    Procedura de calculare a limitelor intervalelor inegale pentru datele care variază aproximativ în progresia aritmetică este prezentată în Tabelul. 3.15.

    Tabelul 3.15. Schema seriilor variabile de interval cu intervale inegale pentru datele care respectă regula progresiei aritmetice

    c este o constantă a progresiei geometrice.

    Pentru imagini grafice folosind serii de distribuție poligon discrete ordonate: pe axa abscisei reprezintă valorile de realizare, iar axa ordonatei - frecvența corespunzătoare sau a frecvenței relative obținute puncte sunt conectate prin segmente (formate prin linia întreruptă). Conform tabelului. 3.7 vom construi un poligon de distribuție (Figura 3.1).


    Fig. 3.1. Poligon de distribuție

    Pentru o reprezentare grafică a unei serii de intervale, utilizați o histogramă care arată ca o figură în mai multe etape formată din dreptunghiuri. Valorile limitelor intervalului sunt reprezentate grafic pe abscisă. Intervalele însele vor fi bazele dreptunghiurilor. Înălțimea dreptunghiurilor corespunde frecvenței sau frecvenței intervalelor care sunt reprezentate de-a lungul axei de coordonate.

    Conform tabelului din Exemplul 3.3, construim o histogramă (Figura 3.2).

    Pentru intervale inegale, histograma distribuției înălțimilor dreptunghiului va fi densitatea de distribuție, calculată ca coeficientul frecvenței intervalului împărțit la mărimea sa.

    Relația dintre valorile frecvenței caracteristice și cea acumulată arată grafice speciale, numite cumulus și orificiul de distribuție.

    Dacă seria este discretă, atunci valoarea seriei este reprezentată grafic de-a lungul abscisei, iar frecvențele acumulate calculate obținute pentru fiecare variantă particulară ca sumă a tuturor frecvențelor anterioare sunt reprezentate de-a lungul axei ordinii. Punctele obținute sunt conectate printr-o linie întreruptă. În loc de valorile frecvențelor acumulate, se pot lua valorile frecvențelor acumulate, apoi punctul superior de pe curba cumulativă de-a lungul axei de coordonate va corespunde unei valori de 100%.


    Fig. 3.2. Histograma distribuției

    În cazul unei serii de intervale, în construcția cumulului, de-a lungul abscisei, se notează limitele grupurilor de intervale, frecvențele cumulative de-a lungul ordonatei se referă la limitele superioare ale intervalelor.

    Conform tabelului din Exemplul 3.3, vom construi o distribuție cumulativă pentru seriile de intervale (Figura 3.2).


    Fig. 3.3. Cumularea distribuției

    Dacă curba cumulativă este schimbată cu axa abscisă cu axa ordonată, obținem un grafic numit orificiul de distribuție (Figura 3.4).







    Articole similare

    Trimiteți-le prietenilor: