O estimare a fiabilității coeficientului de corelare

O estimare a fiabilității coeficientului de corelare

EVALUAREA FIABILITĂȚII COEFICIENTULUI DE CORELARE

Coeficientul de corelare liniară calculat din datele eșantionului este o variabilă aleatorie. Coeficientul de corelație r obținut din eșantion este o estimare a coeficientului de corelație r în populația generală. Cu o scădere a numărului de observații, fiabilitatea coeficientului de corelație scade. Evaluarea semnificației coeficientului de corelare liniară se bazează pe compararea valorii r cu eroarea sa medie pătrată:







,

La evaluarea semnificației coeficientului de corelație, se iau în considerare, de regulă, următoarele situații.

1. Dacă numărul de observații este suficient de mare (de obicei mai mult de 30) și valoarea coeficientului de corelație nu depășește 0,9, distribuția coeficientului de corelație r poate fi considerată ca fiind aproximativ normală cu o eroare medie cadrului

,

Pentru un număr suficient de mare de observații, r trebuie să depășească eroarea medie de cel puțin de trei ori :. Dacă această inegalitate nu este îndeplinită, atunci existența unei legături între semne nu poate fi considerată dovedită.

Având o anumită probabilitate, putem construi limite de încredere r:

.

De exemplu, cu o probabilitate de 0,95, pentru care t = 1,96, limitele de încredere vor fi

,

Cu o probabilitate de 0.997, pentru care coeficientul de încredere este t = 3, limitele de încredere vor fi

Deoarece valoarea r nu poate depăși unitatea, în cazul în care> 1, trebuie specificată doar limita inferioară, adică, să afirmăm că r real nu este mai mic decât.

2. Pentru o dimensiune mică a eșantionului, cu o distribuție r departe de normal, se utilizează alte metode pentru a estima semnificația coeficientului de corelație. Cu un număr mic de observații (n<30), средняя ошибка линейного коэффициента корреляции находится по формуле:

,

iar semnificația este verificată pe baza testului t Student. În același timp, o ipoteză este avansată în ceea ce privește egalitatea coeficientului de corelație la zero, adică absența unei legături între y și x în populația generală. Pentru aceasta, se folosesc statistici:

,

a căror valoare calculată este comparată cu valoarea tabulară din tabelele distribuției Studentului. Dacă ipoteza nulă este adevărată, adică r = 0, atunci t distribuție - distribuția Student testul se supune cn-2 grade de libertate și nivelul acceptat de semnificație (de obicei 0,05). În fiecare caz specific, în conformitate cu tabelul de distribuție a testului t al elevului, există o valoare tabulară (critică) a lui t. admisibilă atunci când ipoteza nulă este validă, iar valoarea reală (calculată) a lui t este comparată cu aceasta. Dacă se calculează t, atunci ipoteza nulă este respinsă, iar coeficientul linear este considerat semnificativ, iar relația dintre x și y este semnificativă. Și invers.







3. Atunci când un număr mic de observații din eșantion și un coeficient ridicat de corelație (distribuție r este diferit de normal) verificarea ipotezei de corelare și este utilizată pentru construirea unui interval de încredere z transformatei Fischer.

În acest scop, valoarea

.

Distribuția lui z abordează distribuția normală. Variația z este exprimată prin formula

.

Calculăm criteriul pentru exemplul 1, deoarece în acest caz avem un număr mic de observații și un coeficient de corelație ridicat.

.

Pentru a nu calcula valorile logaritmului, se pot folosi tabele speciale de transformări Z (Efimova MR p. 402, Shmoilova RA p.446, Eliseeva II p.473). Se constată că coeficientul de corelație de 0,94 corespunde lui Z = 1,74.

Raportul Z la eroarea medie pătrată este 3. Astfel, putem presupune că există o legătură reală între cantitatea de ieșire și consumul de energie electrică pentru întregul set de întreprinderi.

Calcularea coeficienților de corelație este efectuată în programul STATISTICA.

O estimare a fiabilității coeficientului de corelare

Figura 1 - Matricea de corelare.

Corelația determină gradul în care valorile celor două variabile sunt "proporționale" unul cu celălalt. Proporționalitatea înseamnă pur și simplu o relație liniară. Corelația este mare, dacă pe grafic, dependența "poate fi reprezentată" de o linie dreaptă (cu un unghi de înclinare pozitiv sau negativ). Astfel, acesta este cel mai simplu model de regresie care descrie dependența unei variabile de un factor.

Să observăm principalele caracteristici ale acestui indicator.

Pot avea valori de la -1 la +1. Semnul "+" înseamnă că conexiunea este directă (atunci când valorile unei variabile cresc, valorile celeilalte variabile cresc și), "-" înseamnă că conexiunea este inversă.

Cu cât coeficientul este mai apropiat de 1, valoarea coeficientului de corelație mai mică de 0,3, legătura este estimată ca slabă, de la 0,31 la 0,5 - moderată, de la 0,51 la 0,7 - semnificativ, de la 0,71 la 0,9 - închide , 0,91 și mai sus - foarte aproape.

Daca toate valorile variabilelor sunt crescute (reduse) de acelasi numar sau de acelasi numar de ori, valoarea coeficientului de corelatie nu se va schimba.

Coeficientul de corelație este un indicator care estimează strânsa legătura dintre semne.

Pentru r = ± 1, relația de corelație reprezintă o relație funcțională liniară. Toate valorile observate sunt situate pe o linie dreaptă comună. Se mai numește linia de regresie. La r = 0 nu există o relație de corelare liniară. În acest caz, media grupului variabilelor coincide cu mediile lor comune, iar liniile de regresie sunt paralele cu axele de coordonate.

Egalitatea r = 0 indică doar absența unei dependențe de corelare liniară (variabile necorelate), dar nu și în general, cu privire la absența corelației și chiar mai mult la dependența statistică.

Pe baza coeficientului de corelație, nu putem strogodokazat relație cauzală între variabile, dar corelațiile mozheteopredelit false, t. E. Corelația, care obuslovlenyvliyaniyami „alte“ rămâne în afara câmpului dvs. variabilelor de vizualizare.

Principala problemă a corelației false este că nu știm,

care este e # 1104; purtător. Cu toate acestea, dacă știm unde să privim, atunci

Puteți utiliza corelațiile parțiale pentru a controla (parțial excluse) efectul variabilelor definite.

O estimare a fiabilității coeficientului de corelare

Figura 2 - Diagrame de împrăștiere.







Articole similare

Trimiteți-le prietenilor: