15 populárních metrik strojového učení pro Data Scientist

Strojové učení je jedním z nejvíce prozkoumaných předmětů posledních dvou desetiletí. Lidským potřebám není konec. Jejich výrobní a pracovní možnosti jsou však omezené. Proto svět směřuje k automatizaci. Strojové učení hraje v této průmyslové revoluci obrovskou roli. Vývojáři každý den vytvářejí robustnější modely ML a algoritmy. Ale nemůžete jen hodit svůj model do výroby bez jeho vyhodnocení. Tam přicházejí metriky strojového učení. Datoví vědci používají tyto metriky k měření toho, jak dobrý model předpovídá. Musíte mít o nich dobrý nápad. Aby byla vaše cesta ML pohodlná, uvedeme seznam nejpopulárnějších metrik strojového učení, které se můžete naučit stát se lepším datovým vědcem.

Nejoblíbenější metriky strojového učení

Předpokládáme, že jste dobře obeznámeni s algoritmy strojového učení. Pokud nejste, můžete si přečíst náš článek o algoritmech ML. Nyní si projdeme 15 nejpopulárnějších metrik Machine Learning, které byste měli znát jako datový vědec.

01. Matice zmatku

Datoví vědci používají matici zmatku k hodnocení výkonu klasifikačního modelu. Je to vlastně stůl. Řádky zobrazují skutečnou hodnotu, zatímco sloupce vyjadřují předpokládanou hodnotu. Protože proces hodnocení se používá pro klasifikační problémy, může být matice co největší. Vezměme si příklad, abychom tomu porozuměli jasněji.

Předpokládejme, že existuje celkem 100 obrázků koček a psů. Model předpovídal, že 60 z nich jsou kočky a 40 z nich nejsou kočky. Ve skutečnosti však 55 z nich byly kočky a zbytek 45 byli psi. Za předpokladu, že kočky budou pozitivní a psi negativní, můžeme definovat některé důležité pojmy.

Model správně předpovídal 50 obrazů koček. Nazývají se True Positives (TP).
Předpovídalo se, že 10 psů budou kočky. Toto jsou falešná pozitiva (FP).
Matice správně předpověděla, že 35 z nich nejsou kočky. Říká se jim True Negatives (TN).
Ostatních 5 se nazývá falešné negativy (FN), protože to byly kočky. Model je však předpovídal jako psy.

02. Přesnost klasifikace

Toto je nejjednodušší proces vyhodnocení modelu. Můžeme jej definovat jako celkový počet správných předpovědí dělený celkovým počtem vstupních hodnot. V případě klasifikační matice lze říci jako poměr součtu TP a TN k celkovému počtu vstupů.

Proto je přesnost ve výše uvedeném příkladu (50 + 35/100), tj.E., 85%. Proces však není vždy efektivní. Často může poskytovat nesprávné informace. Metrika je nejúčinnější, když jsou vzorky v každé kategorii téměř stejné.

03. Přesnost a odvolání

Přesnost nemusí vždy fungovat dobře. Při nerovnoměrném rozložení vzorků může poskytovat nesprávné informace. Abychom mohli správně vyhodnotit náš model, potřebujeme více metrik. Tam přichází přesnost a vybavenost. Přesnost je skutečným pozitivem celkového počtu pozitiv. Můžeme vědět, jak moc náš model reaguje při zjišťování skutečných dat.

Přesnost výše uvedeného příkladu byla 50/60, tj.E., 83.33%. Modelu se daří dobře předpovídat kočky. Na druhou stranu, odvolání je poměr skutečně pozitivního k součtu skutečného pozitivního a falešně negativního. V následujícím příkladu nám Recall ukazuje, jak často model předpovídá kočku.

Odvolání ve výše uvedeném příkladu je 50/55, tj.E., 90%. V 90% případů je model skutečně správný.

04. Skóre F1

Dokonalosti není konec. Pro lepší vyhodnocení lze zkombinovat vyvolání a přesnost. Toto je skóre F1. Metrika je v podstatě harmonický průměr přesnosti a odvolání. Matematicky to lze napsat jako:

Z příkladu kočka-pes je skóre F1 2 *.9 *.8 / (.9+.8), tj.E., 86%. To je mnohem přesnější než přesnost klasifikace a jedna z nejpopulárnějších metrik strojového učení. Existuje však zobecněná verze této rovnice.

Pomocí beta můžete dát větší důležitost buď odvolání, nebo přesnosti; v případě binární klasifikace beta = 1.

05. ROC křivka

Křivka ROC nebo jednoduše křivka charakteristiky operátora přijímače nám ukazuje, jak náš model funguje pro různé prahové hodnoty. Při klasifikačních problémech model předpovídá některé pravděpodobnosti. Poté se nastaví prahová hodnota. Jakýkoli výstup větší než prahová hodnota je 1 a menší než 0. Například, .2, .4,.6, .8 jsou čtyři výstupy. Pro práh .5 bude výstup 0, 0, 1, 1 a pro prahovou hodnotu .3 to bude 0, 1, 1, 1.

Různé prahové hodnoty způsobí různá vyvolání a přesnost. To nakonec změní True Positive Rate (TPR) a False Positive Rate (FPR). Křivka ROC je graf nakreslený převzetím TPR na ose y a FPR na ose x. Přesnost nám poskytuje informace o jediné prahové hodnotě. ROC nám ale dává spoustu prahů, ze kterých si můžeme vybrat. Proto je ROC lepší než přesnost.

06. AUC

Area Under Curve (AUC) je další populární metrika strojového učení. Vývojáři používají proces hodnocení k řešení problémů s binární klasifikací. O křivce ROC už víte. AUC je oblast pod křivkou ROC pro různé prahové hodnoty. Poskytne vám představu o pravděpodobnosti, že si model vybere pozitivní vzorek nad negativním vzorkem.

AUC se pohybuje od 0 do 1. Protože FPR a TPR mají různé hodnoty pro různé prahové hodnoty, liší se AUC také pro několik prahových hodnot. S nárůstem hodnoty AUC se zvyšuje výkon modelu.

07. Ztráta protokolu

Pokud ovládáte strojové učení, musíte znát ztrátu protokolu. Je to velmi důležitá a velmi oblíbená metrika Machine Learning. Lidé používají tento proces k hodnocení modelů s pravděpodobnostními výsledky. Ztráta protokolu se zvyšuje, pokud se prognózovaná hodnota modelu výrazně liší od skutečné hodnoty. Pokud je skutečná pravděpodobnost .9 a předpokládaná pravděpodobnost je .012, model bude mít obrovskou ztrátu protokolu. Rovnice pro výpočet ztráty protokolu je následující:

Kde,

p (yi) je pravděpodobnost pozitivních vzorků.
1-p (yi) je pravděpodobnost negativních vzorků.
yi je 1 a 0 pro pozitivní a negativní třídu.

Z grafu si všimneme, že ztráta klesá s rostoucí pravděpodobností. Zvyšuje se však s nižší pravděpodobností. Ideální modely mají ztrátu 0 log.

08. Střední absolutní chyba

Doposud jsme diskutovali o populárních metrikách Machine Learning pro problémy s klasifikací. Nyní budeme diskutovat o metrikách regrese. Střední absolutní chyba (MAE) je jednou z regresních metrik. Nejprve se vypočítá rozdíl mezi skutečnou hodnotou a predikovanou hodnotou. Průměr absolutních hodnot těchto rozdílů pak dává MAE. Rovnice pro MAE je uvedena níže:

Kde,

n je celkový počet vstupů
yj je skutečná hodnota
yhat-j je předpokládaná hodnota

Čím nižší je chyba, tím lepší je model. Z důvodu absolutních hodnot však nemůžete znát směr chyby.

09. Střední čtvercová chyba

Mean Squared Error nebo MSE je další populární metrika ML. Většina datových vědců ji používá při regresních problémech. Stejně jako MAE musíte vypočítat rozdíl mezi skutečnými hodnotami a predikovanými hodnotami. Ale v tomto případě jsou rozdíly čtvercové a je brán průměr. Rovnice je uvedena níže:

Symboly označují totéž jako MAE. MSE je v některých případech lepší než MAE. MAE nemůže ukázat žádný směr. V MSE takový problém neexistuje. Pomocí něj tedy můžete snadno vypočítat přechod. MSE hraje při výpočtu klesání gradientu obrovskou roli.

10. Střední střední kvadratická chyba

Toto je možná nejoblíbenější metrika Machine Learning pro regresní problémy. Root Mean Squared Error (RMSE) je v podstatě druhá odmocnina MSE. Je téměř podobný MAE, s výjimkou odmocniny, která chybu zpřesňuje. Rovnice je:

Abychom to porovnali s MAE, pojďme si vzít příklad. Předpokládejme, že existuje 5 skutečných hodnot 11, 22, 33, 44, 55. A odpovídající předpokládané hodnoty jsou 10, 20, 30, 40, 50. Jejich MAE je 3. Na druhou stranu, RMSE je 3.32, který je podrobnější. Proto je RMSE výhodnější.

11. R-na druhou

Chybu můžete vypočítat z RMSE a MAE. Srovnání mezi těmito dvěma modely však není při jejich použití úplně vhodné. V problémech s klasifikací vývojáři porovnávají dva modely s přesností. Potřebujete takové měřítko při regresních problémech. R-kvadrát vám pomůže porovnat regresní modely. Jeho rovnice je následující:

Kde,

Model MSE je výše zmíněný MSE.
Základní MSE je průměr druhé mocniny rozdílů mezi střední predikcí a skutečnou hodnotou.

Rozsah čtverce R je od záporného nekonečna do 1. Vyšší hodnota hodnocení znamená, že model dobře sedí.

12. Upravený R-na druhou

R-Squared má nevýhodu. Při přidávání nových funkcí do modelu nefunguje dobře. V takovém případě se hodnota někdy zvýší a někdy zůstane stejná. To znamená, že R-Squared se nestará, jestli má nová funkce něco, co by vylepšilo model. Tato nevýhoda však byla odstraněna v upraveném R-Squared. Vzorec je: Kde,

P je počet funkcí.
N je počet vstupů / vzorků.

V R-Squared Adjusted se hodnota zvyšuje pouze v případě, že nová funkce vylepšuje model. A jak víme, vyšší hodnota R-Squared znamená, že model je lepší.

13. Metriky hodnocení učení bez dozoru

Obecně používáte klastrovací algoritmus pro učení bez dozoru. Není to jako klasifikace nebo regrese. Model nemá žádné štítky. Vzorky jsou seskupeny podle jejich podobností a odlišností. K vyhodnocení těchto problémů s klastrováním potřebujeme jiný typ metriky hodnocení. Silhouette Coefficient je populární metrika strojového učení pro problémy s klastrováním. Funguje s následující rovnicí:

Kde,

„a“ je průměrná vzdálenost mezi jakýmkoli vzorkem a dalšími body v klastru.
„b“ je průměrná vzdálenost mezi jakýmkoli vzorkem a dalšími body v nejbližším klastru.

Koeficient siluety skupiny vzorků se bere jako průměr jejich jednotlivých koeficientů. Pohybuje se od -1 do +1. +1 znamená, že klastr má všechny body se stejnými atributy. Čím vyšší je skóre, tím vyšší je hustota shluku.

14. MRR

Stejně jako klasifikace, regrese a shlukování je i hodnocení problémem strojového učení. Hodnocení uvádí skupinu vzorků a hodnotí je na základě určitých zvláštních charakteristik. Pravidelně to vidíte na Googlu, v seznamu e-mailů, na YouTube atd. Mnoho vědců zabývajících se daty si ponechává Mean Reciprocal Rank (MRR) jako svou první volbu pro řešení problémů s hodnocením. Základní rovnice je:

Kde,

Q je sada vzorků.

Rovnice nám ukazuje, jak dobrý model hodnotí vzorky. Má to však nevýhodu. Do seznamu položek bere v úvahu pouze jeden atribut najednou.

15. Koeficient stanovení (R²)

Machine Learning obsahuje obrovské množství statistik. Mnoho modelů k vyhodnocení konkrétně potřebuje statistické metriky. Koeficient stanovení je statistická metrika. Udává, jak nezávislá proměnná ovlivňuje závislou proměnnou. Relevantní rovnice jsou:

Kde

fi je předpokládaná hodnota.
ybar je průměr.
SStot je celkový součet čtverců.
SSres je zbytkový součet čtverců.

Model funguje nejlépe, když = 1. Pokud model předpovídá střední hodnotu dat, bude 0.

Závěrečné myšlenky

Pouze blázen uvede svůj model do výroby, aniž by jej vyhodnotil. Pokud chcete být datovým vědcem, musíte vědět o metrikách ML. V tomto článku jsme uvedli patnáct nejpopulárnějších metrik Machine Learning, které byste měli znát jako datový vědec. Doufáme, že máte nyní jasno v různých metrikách a jejich důležitosti. Tyto metriky můžete použít pomocí Pythonu a R.

Pokud si pozorně prostudujete článek, měli byste mít motivaci naučit se používat přesné metriky ML. Udělali jsme svou práci. Nyní je řada na vás, abyste se stal datovým vědcem. Chybovat je lidské. V tomto článku možná některé chybí. Pokud nějaké najdete, dejte nám vědět. Data jsou nová světová měna. Využijte to a získejte své místo ve světě.