Evaluarea corectitudinii clasificatorului

Dacă citiți această notă, atunci probabil că ați întâlnit deja atât cu precizie cât și cu completitudine (rechemare) a clasificatorilor. Dar nu vă puteți aminti formulele despre TP, TN, FP, FN. Și eu nu le-am putut înțelege și am văzut o mulțime de oameni, cămilele se gândesc mereu la ceea ce este în numerotator și la ce este în numitor. Dar când m-am uitat la problema dintr-un unghi diferit, totul sa ridicat de la cap până la picioarele mele.







Voi începe de la început. Sarcina noastră este să determinăm ce clasificator este mai bun. Pentru aceasta avem nevoie de o caracteristică numerică a calității clasificării.

De obicei, acest lucru este spus pe exemplul clasificării binare (cum ar fi spam / non-spam). Propun să analizez problema în sens mai larg. Acest lucru, mi se pare, vă permite să înțelegeți mai bine esența problemei.

Să ne uităm la clasificarea precipitațiilor. Să avem 10 zile de observații. Și prognoza generată de clasificatorul nostru.

Numărul de perechi [precipitații efective] - [jiggings anticipate], putem vizualiza în tabel - matricea de inexactități (matricea de confuzie).

Cea mai simplă măsură a calității clasificatorului este precizia

Este egal cu raportul dintre numărul de soluții corecte și numărul total de elemente luate în considerare. În ceea ce privește matricele noastre: acesta este raportul dintre suma celulelor diagonale și suma tuturor celulelor. Ambii clasificatori arată







Imediat nu există o astfel de evaluare. Potrivit ei, clasificatorii sunt aceiași. Cu toate acestea, uitați-vă la modul în care acestea prevăd zăpada. Este evident că prima este mult mai bună. El a mințit doar puțin cu vreme clară, dar a prezis zăpada. Cel de-al doilea clasificator nu a ghicit niciodată zăpada. Și el prezice "clar" doar puțin mai bine.

Nu putem face distincție între acești doi clasificatori utilizând metricul de precizie.

Pentru a scăpa de această problemă, introduceți celelalte două valori.

Precizie și completitudine (rechemare) a clasificatorului

Precizia este raportul dintre elementul diagonal și suma tuturor elementelor din rândul corespunzător. Asta este, care parte din predicțiile acestei clase a fost corectă.

În sensul, aceasta este "acuratețea" clasificatorului. Cât de des devine realitate când lucrează în această clasă.

Completitudinea (rechemarea) este aceeași, dar numai pentru o coloană. Asta este, ce proporție din evenimentele reale din această clasă au fost corect prezise.

În sensul, aceasta este "reacția" clasificatorului. Cât de mult "simte" acest fapt.

Pentru clasificatorii noștri obținem următoarele cifre:

Aici puteți vedea deja că A este mai bună decât V. Dar avem nevoie de un număr pentru evaluare.

Și acest număr devine adesea

Avem nevoie de o funcție a celor două numere, care ar crește odată cu creșterea oricăror argumente. Cel mai simplu candidat este o măsură F:

Pentru clasificatorul nostru A va fi egal cu 0,72, iar pentru B - 0,59.

Acum este clar că A câștigă.

Pe lângă măsurile F, există alte opțiuni pentru funcțiile care dau preferință preciziei sau completării. Dar aceasta este o altă poveste.







Articole similare

Trimiteți-le prietenilor: