Notes de l'instructeur

Instructor notes

Animez une brève discussion pour établir un lien entre les anormalies détectées et les opérations de nettoyage requises.

Vous pouvez utiliser les termes suivants pour désigner les anormalies qui ont été identifiées:

Codification: codification des valeurs dans certaines colonnes, telles que ‘gender’, ‘age’, à l’aide de chiffres, de lettres et de mots. Également l’existence de plusieur formats de dates ((“jj/mm/aaaa”, “aaaa/mm/jj”, etc)) dans une même colonne telle que ‘date_onset’. Moins visibles, les noms des colonnes.
Manquant: comment interpréter une entrée telle que “” dans la colonne ‘statut’ ou “-99” dans d’autres circonstances ? Disposons-nous d’un dictionaire de données provenant du processus de collecte des données ?
Incohérences: avoir des incohérences comme lorsque la date d’échantillonnage est antérieure à la date d’apparition des symptomes.
Valeurs non plausibles Les valeurs non plausibles, comme les observations aberrantes avec des dates en dehors de la période concernée.
Les doublons Toutes les observations sont-elles uniques ?

Vous pouvez utiliser ces termes pour vous référer aux opérations de nettoyage:

Normaliser le nom des colonnes
Normaliser les variables catégorielles comme ‘gender’
Normaliser les colonnes de type date
Convertir des caractères en valeurs numériques
Vérifier la séquence d’événements datés

R

cleaned_df <- df %>%
  cleanepi::remove_constants() %>%
  cleanepi::remove_duplicates()

SORTIE

! Constant data was removed after 2 iterations.
ℹ Enter `attr(dat, "report")[["constant_data"]]` for more information, where
  "dat" represents the object used to store the output from
  `remove_constants()`.
ℹ No duplicates were found.

R

print_report(cleaned_df, "constant_data")

indices des doublon : aucun
colonnes vides :
- premiere itération: col5
- seconde itération: aucune
lignes vides :
- premiere itération: 6
- seconde itération: 3, 4, 5
colonnes constantes : col3, col4

Faites remarquer aux apprenants qu’ils peuvent obtenir des résultats différents en variant la valeur de l’argument cutoff.

R

cleaned_df <- df %>%
  cleanepi::remove_constants(cutoff = 0.5)

R

print_report(cleaned_df, "constant_data")

Notez que cleanepi contient un ensemble de fonctions pour diagnostiquer l’état de propreté des données (par exemple check_subject_ids() et check_date_sequence() dans l’extrait de code ci-dessus) et un autre pour effecture les opérations de nettoyage (le reste des fonctions dans l’exemple ci-dessus).

Valider les données épidémiologiques

Remarque de l'instructeur

Si les apprenants n’ont pas d’expérience à partager à ce sujet, nous, en tant qu’instructeurs, pouvons en partager une.

Un tel scénario se produit généralement lorsque l’institution qui effectue l’analyse des données n’est pas la même que celle qui collecte les données. Cette dernière peut prendre des décisions sur la structure et le format des données qui peuvent affecter les processus en aval et avoir un impact sur la durée l’analyse et la précision des résultats.

Notes de l'instructeur

Lecture des données épidémiologiques

Nettoyage des données épidémiologiques

Remarque de l'instructeur

Remarque de l'instructeur

R

SORTIE

R

R

R

Remarque de l'instructeur

Valider les données épidémiologiques

Remarque de l'instructeur

Agréger et visualiser les données épidémiologiques