OpenRefine, c'est LE logiciel que j'utilise au quotidien depuis des années. Il me sert en vrac à nettoyer et enrichir des données archivistiques ou patrimoniales (boulot), à contribuer à Wikidata ou à Commons, à restructurer rapidement des listes d'actes généalogiques manquants (évoqué sur Mastodon), à élaborer mon challenge 2023 (et celui 2021)... Voire il m'a permis il y a quelques années de migrer l'agenda de ma mère d'un téléphone à un autre. Sans compter que je fais pas mal de formation et de prosélytisme autour d'OpenRefine...
Les fonctionnalités de manipulation des contenus permettent de faire des ébauches de visualisation, notamment avec le système des facettes cumulables. Ce n'est pas très "beau", en bleu et blanc, mais souvent ça me suffit amplement pour prendre connaissance de la masse des données, d'avoir des idées de grandeur, voire de faire un contrôle qualité rapide ("mais que vient faire cette année 1053 alors que je ne dois avoir que des choses du 19e siecle"). Petit tour d'horizon non exhaustif de mes facettes préférées sur ma liste d'ancêtres.
La plus basique, c'est la facette textuelle (regroupement des cellules semblables). Cela permet de sélectionner des lignes avec des caractéristiques communes, avec indication du nombre d'occurrence). Par exemple le nombre de personnes qui signent (colonne sign) cumulé au genre (colonne sexe).
Facette par texte : ancêtres qui savent signer, réparties par genre (70 femmes, 155 hommes)
J'aime bien aussi la facette par mot (regroupement des chaînes de caractères consécutifs - jusqu'à rencontrer un espace - identiques à l'intérieur d'une cellule). Pratique pour détecter des erreurs de saisie sur des prénoms par exemple (Jsopeh, Jena... au lieu de Joseph, Jean)... ou faire des statistiques sur les prénoms les plus courants !
Facette par mot : prénoms les plus portés parmi mes ancêtres
Pour les colonnes de type date, la facette chronologique permet d'avoir un aperçu de la couverture temporelle des données. Exemple ici avec les dates de naissance et dates de décès.
Facette chronologique : couverture temporelle des dates de naissance et dates de décès (lorsque renseigné)
Enfin, autre facette pratique : celle par longueur de mot (pour le contrôle qualité, pour identifier les cellules trop longues quand on s'attend à avoir du texte court). Ca marche aussi pour la généalogie, avec les noms de famille les plus courts !
Facette par longueur de mot : les patronymes les plus courts
Dans les dernières versions d'OpenRefine, il y a une petite nouvelle (par nuage de points, sur les valeurs numériques), mais avec ces données ça n'a pas grand sens (du moins je n'y comprends rien !).
À noter que pour chaque type de facette, il est possible, en cliquant sur le nombre de choix, d'avoir les valeurs au format CSV (en vrai TSV), utilisable très facilement dans n'importe quel outil de construction de graphiques (tableur bureautique, Rawgraphs, Flourish, etc.).
J'ai peut-être oublié de préciser dès la première ligne que j'étais OpenRefine-addict...
>> Consulter l'ensemble du challenge de A à Z 2023
Pour aller plus loin
- OpenRefine, site officiel
- Patrimoine et numérique (l'une de mes autres casquettes), tutoriels et datavisualisations autour d'OpenRefine
Comments est propulsé par CComment