Notes de l'instructeur
Instructor notes
Lecture des données épidémiologiques
Nettoyage des données épidémiologiques
Remarque de l'instructeur
Animez une brève discussion pour établir un lien entre les anormalies détectées et les opérations de nettoyage requises.
Vous pouvez utiliser les termes suivants pour désigner les anormalies qui ont été identifiées:
- Codification: codification des valeurs dans certaines colonnes, telles que ‘gender’, ‘age’, à l’aide de chiffres, de lettres et de mots. Également l’existence de plusieur formats de dates ((“jj/mm/aaaa”, “aaaa/mm/jj”, etc)) dans une même colonne telle que ‘date_onset’. Moins visibles, les noms des colonnes.
- Manquant: comment interpréter une entrée telle que “” dans la colonne ‘statut’ ou “-99” dans d’autres circonstances ? Disposons-nous d’un dictionaire de données provenant du processus de collecte des données ?
- Incohérences: avoir des incohérences comme lorsque la date d’échantillonnage est antérieure à la date d’apparition des symptomes.
- Valeurs non plausibles Les valeurs non plausibles, comme les observations aberrantes avec des dates en dehors de la période concernée.
- Les doublons Toutes les observations sont-elles uniques ?
Vous pouvez utiliser ces termes pour vous référer aux opérations de nettoyage:
- Normaliser le nom des colonnes
- Normaliser les variables catégorielles comme ‘gender’
- Normaliser les colonnes de type date
- Convertir des caractères en valeurs numériques
- Vérifier la séquence d’événements datés
Remarque de l'instructeur
R
cleaned_df <- df %>%
cleanepi::remove_constants() %>%
cleanepi::remove_duplicates()
SORTIE
! Constant data was removed after 2 iterations.
ℹ Enter `attr(dat, "report")[["constant_data"]]` for more information, where
"dat" represents the object used to store the output from
`remove_constants()`.
ℹ No duplicates were found.
R
print_report(cleaned_df, "constant_data")
- indices des doublon : aucun
- colonnes vides :
- premiere itération: col5
- seconde itération: aucune
- lignes vides :
- premiere itération: 6
- seconde itération: 3, 4, 5
- colonnes constantes : col3, col4
Faites remarquer aux apprenants qu’ils peuvent obtenir des résultats
différents en variant la valeur de l’argument cutoff
.
R
cleaned_df <- df %>%
cleanepi::remove_constants(cutoff = 0.5)
R
print_report(cleaned_df, "constant_data")
Remarque de l'instructeur
Notez que cleanepi contient un ensemble de fonctions
pour diagnostiquer l’état de propreté des données (par
exemple check_subject_ids()
et
check_date_sequence()
dans l’extrait de code ci-dessus) et
un autre pour effecture les opérations de nettoyage (le
reste des fonctions dans l’exemple ci-dessus).
Valider les données épidémiologiques
Remarque de l'instructeur
Si les apprenants n’ont pas d’expérience à partager à ce sujet, nous, en tant qu’instructeurs, pouvons en partager une.
Un tel scénario se produit généralement lorsque l’institution qui effectue l’analyse des données n’est pas la même que celle qui collecte les données. Cette dernière peut prendre des décisions sur la structure et le format des données qui peuvent affecter les processus en aval et avoir un impact sur la durée l’analyse et la précision des résultats.