- Stratégies populaires pour imputer statistiquement les valeurs manquantes dans un ensemble de données.
- 2- Imputation à l’aide de valeurs (moyennes/médianes):
- 3- Imputation à l’aide des valeurs (les plus fréquentes) ou (nulles/constantes) :
- 4- Imputation utilisant k-NN :
- Comment cela fonctionne-t-il ?
- 5-. Imputation utilisant l’imputation multivariée par équation chaînée (MICE)
- 6- Imputation Using Deep Learning (Datawig) :
- Imputation par régression stochastique :
- Extrapolation et interpolation :
- Imputation Hot-Deck :
Stratégies populaires pour imputer statistiquement les valeurs manquantes dans un ensemble de données.
De nombreux ensembles de données du monde réel peuvent contenir des valeurs manquantes pour diverses raisons. Elles sont souvent codées sous forme de NaN, de blancs ou de tout autre caractère de remplacement. L’entraînement d’un modèle avec un ensemble de données comportant de nombreuses valeurs manquantes peut avoir un impact considérable sur la qualité du modèle d’apprentissage automatique. Certains algorithmes tels que les estimateurs de scikit-learn supposent que toutes les valeurs sont numériques et ont et tiennent une valeur significative.
Une façon de gérer ce problème est de se débarrasser des observations qui ont des données manquantes. Cependant, vous risquez de perdre des points de données contenant des informations précieuses. Une meilleure stratégie serait d’imputer les valeurs manquantes. En d’autres termes, nous devons déduire ces valeurs manquantes à partir de la partie existante des données. Il existe trois principaux types de données manquantes :
- Manque complètement au hasard (MCAR)
- Manque au hasard (MAR)
- Non manquante au hasard (NMAR)
Cependant, dans cet article, je me concentrerai sur 6 méthodes populaires d’imputation de données pour les ensembles de données transversales ( Les ensembles de données chronologiques sont une autre histoire ).
C’est une méthode facile. Vous laissez simplement l’algorithme gérer les données manquantes. Certains algorithmes peuvent prendre en compte les valeurs manquantes et apprendre les meilleures valeurs d’imputation pour les données manquantes en fonction de la réduction de la perte de formation (c’est-à-dire XGBoost). D’autres ont la possibilité de les ignorer (par exemple, LightGBM – use_missing=false). Cependant, d’autres algorithmes paniquent et génèrent une erreur en se plaignant des valeurs manquantes (par exemple Scikit learn – LinearRegression). Dans ce cas, vous devrez traiter les données manquantes et les nettoyer avant de les fournir à l’algorithme.
Voyons d’autres façons d’imputer les valeurs manquantes avant la formation :
Note : Tous les exemples ci-dessous utilisent le California Housing Dataset de Scikit-learn.
2- Imputation à l’aide de valeurs (moyennes/médianes):
Cela fonctionne en calculant la moyenne/médiane des valeurs non manquantes dans une colonne, puis en remplaçant les valeurs manquantes dans chaque colonne séparément et indépendamment des autres. Il ne peut être utilisé qu’avec des données numériques.
Pros:
- Facile et rapide.
- Fonctionne bien avec les petits ensembles de données numériques.
Cons:
- Ne prend pas en compte les corrélations entre les caractéristiques. Il ne fonctionne qu’au niveau des colonnes.
- Donnera de mauvais résultats sur les caractéristiques catégorielles codées (ne l’utilisez PAS sur les caractéristiques catégorielles).
- Pas très précis.
- Ne tient pas compte de l’incertitude des imputations.
3- Imputation à l’aide des valeurs (les plus fréquentes) ou (nulles/constantes) :
La plus fréquente est une autre stratégie statistique pour imputer les valeurs manquantes et OUI ! !! Elle fonctionne avec des caractéristiques catégorielles (chaînes de caractères ou représentations numériques) en remplaçant les données manquantes par les valeurs les plus fréquentes dans chaque colonne.
Pros:
- Fonctionne bien avec les caractéristiques catégorielles.
Cons:
- Elle ne prend pas non plus en compte les corrélations entre les caractéristiques.
- Elle peut introduire un biais dans les données.
Imputation nulle ou constante – comme son nom l’indique, elle remplace les valeurs manquantes par zéro ou par toute valeur constante que vous spécifiez