- Oblíbené strategie statistické imputace chybějících hodnot v souboru dat.
- 2- Imputace pomocí (průměrných/středních) hodnot:
- 3- Imputace pomocí (nejčastějších) nebo (nulových/konstantních) hodnot:
- 4- Imputace pomocí k-NN:
- Jak to funguje?
- 5-. Imputace pomocí vícerozměrné imputace řetězovou rovnicí (MICE)
- 6- Imputation Using Deep Learning (Datawig):
- Stochastická regresní imputace:
- Extrapolace a interpolace:
- Hot-Deck imputace:
Oblíbené strategie statistické imputace chybějících hodnot v souboru dat.
Mnoho reálných souborů dat může z různých důvodů obsahovat chybějící hodnoty. Často jsou zakódovány jako NaN, prázdná místa nebo jiné zástupné znaky. Trénování modelu s datovou sadou, která obsahuje mnoho chybějících hodnot, může drasticky ovlivnit kvalitu modelu strojového učení. Některé algoritmy, například estimátory scikit-learn, předpokládají, že všechny hodnoty jsou číselné a mají a drží smysluplnou hodnotu.
Jedním ze způsobů, jak se s tímto problémem vypořádat, je zbavit se pozorování, která mají chybějící data. Riskujete však ztrátu datových bodů s cennými informacemi. Lepší strategií by bylo chybějící hodnoty imputovat. Jinými slovy, musíme tyto chybějící hodnoty odvodit z existující části dat. Existují tři hlavní typy chybějících údajů:
- Zcela náhodně chybějící (MCAR)
- Náhodně chybějící (MAR)
- Nezcela náhodně chybějící (NMAR)
V tomto článku se však zaměřím na 6 populárních způsobů imputace dat pro průřezové datové soubory ( časové řady jsou jiný příběh ).
To je snadné. Prostě necháte algoritmus, aby si s chybějícími daty poradil. Některé algoritmy mohou zohlednit chybějící hodnoty a naučit se nejlepší imputační hodnoty pro chybějící data na základě redukce tréninkových ztrát (tj. XGBoost). Některé jiné mají možnost je prostě ignorovat (např. LightGBM – use_missing=false). Jiné algoritmy však zpanikaří a vyhodí chybu stěžující si na chybějící hodnoty (tj. Scikit learn – LinearRegression). V takovém případě budete muset chybějící data zpracovat a vyčistit, než je předáte algoritmu.
Podívejme se na další způsoby imputace chybějících hodnot před trénováním:
Poznámka: Všechny níže uvedené příklady používají datovou sadu California Housing Dataset od Scikit-learn.
2- Imputace pomocí (průměrných/středních) hodnot:
Tato metoda funguje tak, že se vypočítá průměr/střední hodnota nechybějících hodnot ve sloupci a poté se chybějící hodnoty v rámci každého sloupce nahradí samostatně a nezávisle na ostatních. Lze ji použít pouze u číselných dat.
Pros:
- Snadné a rychlé.
- Pracuje dobře s malými číselnými soubory dat.
Nevýhody:
- Nezohledňuje korelace mezi rysy. Funguje pouze na úrovni sloupců.
- Dává špatné výsledky u kódovaných kategoriálních rysů (NEPOUŽÍVAT na kategoriální rysy).
- Není příliš přesný.
- Nezohledňuje nejistotu v imputacích.
3- Imputace pomocí (nejčastějších) nebo (nulových/konstantních) hodnot:
Nejčastější je další statistická strategie pro imputování chybějících hodnot a ANO! Pracuje s kategoriálními rysy (řetězce nebo číselné reprezentace) nahrazením chybějících dat nejčastějšími hodnotami v rámci každého sloupce.
Pros:
- Funguje dobře s kategoriálními rysy.
Proti:
- Nezohledňuje také korelace mezi rysy.
- Může do dat vnést zkreslení.
Nulová nebo konstantní imputace – jak název napovídá – nahrazuje chybějící hodnoty buď nulou, nebo libovolnou zadanou konstantní hodnotou