Notes de l'instructeur

Instructor notes

Lecture des données épidémiologiques


Nettoyage des données épidémiologiques


Remarque de l'instructeur

Animez une brève discussion pour établir un lien entre les anormalies détectées et les opérations de nettoyage requises.

Vous pouvez utiliser les termes suivants pour désigner les anormalies qui ont été identifiées:

  • Codification: codification des valeurs dans certaines colonnes, telles que ‘gender’, ‘age’, à l’aide de chiffres, de lettres et de mots. Également l’existence de plusieur formats de dates ((“jj/mm/aaaa”, “aaaa/mm/jj”, etc)) dans une même colonne telle que ‘date_onset’. Moins visibles, les noms des colonnes.
  • Manquant: comment interpréter une entrée telle que “” dans la colonne ‘statut’ ou “-99” dans d’autres circonstances ? Disposons-nous d’un dictionaire de données provenant du processus de collecte des données ?
  • Incohérences: avoir des incohérences comme lorsque la date d’échantillonnage est antérieure à la date d’apparition des symptomes.
  • Valeurs non plausibles Les valeurs non plausibles, comme les observations aberrantes avec des dates en dehors de la période concernée.
  • Les doublons Toutes les observations sont-elles uniques ?

Vous pouvez utiliser ces termes pour vous référer aux opérations de nettoyage:

  • Normaliser le nom des colonnes
  • Normaliser les variables catégorielles comme ‘gender’
  • Normaliser les colonnes de type date
  • Convertir des caractères en valeurs numériques
  • Vérifier la séquence d’événements datés


Remarque de l'instructeur

R

cleaned_df <- df %>%
  cleanepi::remove_constants() %>%
  cleanepi::remove_duplicates()

SORTIE

! Constant data was removed after 2 iterations.
ℹ Enter `attr(dat, "report")[["constant_data"]]` for more information, where
  "dat" represents the object used to store the output from
  `remove_constants()`.
ℹ No duplicates were found.

R

print_report(cleaned_df, "constant_data")
  • indices des doublon : aucun
  • colonnes vides :
    • premiere itération: col5
    • seconde itération: aucune
  • lignes vides :
    • premiere itération: 6
    • seconde itération: 3, 4, 5
  • colonnes constantes : col3, col4

Faites remarquer aux apprenants qu’ils peuvent obtenir des résultats différents en variant la valeur de l’argument cutoff.

R

cleaned_df <- df %>%
  cleanepi::remove_constants(cutoff = 0.5)

R

print_report(cleaned_df, "constant_data")


Remarque de l'instructeur

Notez que cleanepi contient un ensemble de fonctions pour diagnostiquer l’état de propreté des données (par exemple check_subject_ids() et check_date_sequence() dans l’extrait de code ci-dessus) et un autre pour effecture les opérations de nettoyage (le reste des fonctions dans l’exemple ci-dessus).



Valider les données épidémiologiques


Remarque de l'instructeur

Si les apprenants n’ont pas d’expérience à partager à ce sujet, nous, en tant qu’instructeurs, pouvons en partager une.

Un tel scénario se produit généralement lorsque l’institution qui effectue l’analyse des données n’est pas la même que celle qui collecte les données. Cette dernière peut prendre des décisions sur la structure et le format des données qui peuvent affecter les processus en aval et avoir un impact sur la durée l’analyse et la précision des résultats.



Agréger et visualiser les données épidémiologiques