Gestion des données maîtres ou de référence
Master Data Management (MDM)

ℹ️ Cet article est la seconde partie d’un diptyque concernant l’identification et la gestion des données redondantes dans des jeux de données. Dans un premier temps, on s’est intéressé aux problèmes de résolution des entités ou, plus communément appelé, entity resolution au travers de ses enjeux, problèmes et solutions éventuelles. Dans cette seconde partie, on se concentrera sur les aspects liés à la gestion des données maîtres ou master data management et des nombreuses thématiques qui lui sont connexes. Il est préférable d’avoir lu la première partie avant de s’attaquer à celle-ci.

Introduction

Dans la première partie, on a vu comment on pouvait réussir à identifier les différents endroits où se trouvent les informations portant sur une même entité et comment la regrouper au sein de clusters plus ou moins cohérents. Maintenant, on va voir comment combiner toutes ces informations afin de représenter une image cohérente qui va permettre de développer des concepts à plus fortes valeurs ajoutées et ainsi débloquer toute la puissance dans la donnée.

On va commencer par fournir un rapide survol des thématiques liées à la gestion des données maîtres (parfois aussi appelée données de références ou plus classiquement Master Data Management - MDM) et de son importance pour le business à l’air de la donnée. Présenter les capacités et enjeux permet de prendre des décisions plus avisés sur ce qui est possible de réaliser et à quoi il vaut mieux prêter attention lorsque l’on prend une décision.

On commencera par expliquer comment on peut combiner les différentes informations, les records formant des entités grâce aux clusters produits par l’étape d’Entity Resolution et quels pourront être les problèmes auxquels il faudra faire face. En effet, la qualité des données peut être très diverse et on se retrouve parfois en opposition entre celles provenant d’une source authentique (’source de vérité externe’) et celles obtenues directement au près du principal concerné (classiquement à cause de décalage temporel). Mais ce n’est pas le seul problème qui peut survenir …

Finalement, on abordera toutes des questions liées à la qualité des données, à la gouvernance (de ces données) pour aboutir à des remarques plus générales sur l’acceptation des parties prenantes (stakeholders) et les changements que l’on peut entreprendre afin d’améliorer l’efficacité opérationnelle et la prise de décision fondée par la donnée.

Gestion des données maîtres

La gestion des données de référence ou gestion des données maîtres (plus connue sous le nom master data management ou MDM) est un ensemble de thématiques, sujets et processus qui visent au traitement de la donnée au travers de ses nombreux aspects: définition/documentation, stockage, maintien, distribution, correction, sécurité, intégrité, … Afin de proposer une vue à la fois complète et fiable des données qui servira de référence aux systèmes d’informations et aux prises de décisions, on parle de source authentique. Il s’agit d’une composante de l’architecture d’entreprise qui se recoupe avec de nombreuses autres.

Le cœur de la thématique consiste en l’existence d’une source unique de vérité. Les avantages sont nombreux:

  • Qualité des données: on s’assure de la fiabilité, de la consistance ou du bon mis-à-jour des données. Il devient alors plus simple de s’assurer l’exactitude des données, minimiser les risques d’apparition d’erreurs ou de respecter le cycle de vie.
  • Prise de décision: puisque l’on possède une vue holistique des données, il devient plus simple d’aller chercher les informations qui seront pertinentes à la prise d’une décision, d’identifier des tendances ou motifs en leur sein, et ainsi prendre des décisions appuyées par des faits grâce à la génération de rapports de meilleures qualités. Il devient également plus simple d’obtenir une meilleure compréhension des besoins des clients et de proposer une offre personnalisée.
  • Efficacité opérationnelle: vu que les données deviennent organisées et plus faciles d’accès, cela permet de réduire la duplication des données au sein de l’entreprise (et éventuellement de streamer les données). Il devient plus simple de partager de l’information (et ainsi de collaborer, réduire les 'silos’) ainsi que d’appliquer des corrections.
  • Réduction des coûts: puisqu’une seule copie est nécessaire, on minimise l’espace de stockage et le nombre d’endroits où une erreur peut survenir. Il devient plus simple de s’assurer que l’on possède bel et bien un back-up de la donnée.
  • Conformité, audit et sécurité: l’unicité de la donnée permet de plus facilement respecter une même convention sur la donnée et ainsi respecter des besoins légaux. Il devient beaucoup plus simple de monitorer qui peut accéder à des données sensibles, de limiter les fuites de données ou d’appliquer des traitements spécifiques (protection de mineurs, GDPR, droit à l’oubli, …). Et donc de mettre en place des pratiques de gouvernance de la donnée.

Tous ces points peuvent présenter un avantage compétitif et une meilleur adaptabilité aux changements.

Au sein du domaine MDM, on peut distinguer quatre grands axes :

  • Qualité de la donnée: on ne saura insister sur ce point, le but est vraiment de fournir la meilleure qualité de donnée possible (garbage in, garbage out), la plus complète, à jour et consistante, au travers du nettoyage, de la validation et correction des données et de l’amélioration de celles-ci grâce à de l’inférence.
  • Contrôle de qualité et assurance: au niveau des données, tous les problèmes peuvent se produire. Il est nécessaire de s’assurer que celles-ci respectent des standards de qualité (quantitatif - Quality Control ou qualitatif - Quality Assurance) afin de toujours fournir la meilleure donnée possible. Cela implique qu’il faut centraliser les points d’entrée des données pour qu’ils puissent bénéficier de toutes les étapes de traitement et de nettoyage existants mais également mettre en place un système de correction de la donnée en cas de soucis (on parle souvent de data remediation).
  • Gouvernance de la donnée: établir des règles, des politiques et processus de gestions de la donnée est plus que primordial vu que le MDM va devenir un point central de collaboration au sein de l’entreprise. Respecter un ensemble de standards et règles, et surtout de s’y tenir, permet de mieux s’en sortir par rapport à la vaste quantité de champs et données que l’on peut retrouver, notamment grâce aux métadonnées. Outre ces aspects de classifications et de documentations, il est d’usage de définir des rôles et responsabilités (matrice RACI).
  • Régulations et sécurité: les données doivent souvent obéir à un ensemble de lois, réglementations et législations. La gestion des accès, leur chiffrement, le caviardage et la surveillance des accès et des usages permet de mieux répondre aux questions d’audit. Ces mécanismes interviennent également dans la gestion du cycle de vie de la donnée.

Mastering

Mais concrètement, par quoi cela se traduit la création de données de référence ? Après l’étape d’entity resolution, on se retrouve avec un ensemble de clusters qui sont chacun composés de différents records. Il faut alors chercher à combiner tous ces records en une entité cohérente. Cette étape s’appelle le mastering, parce qu’on obtient une donnée maître (master), on emploie également régulièrement le terme: golden record pour désigner ce concept.

Même si le concept de consolidation des données ne semble pas très complexe en soi, il propose néanmoins de nombreuses difficultés. En effet, en fonction de la balance que l’on a effectué entre une approche conservatrice qui cherche à minimiser la création de clusters erronés et une approche plus agressive qui vise à trouver le plus d’informations possibles sur une 'même' entité, la problématique peut être plus ou moins complexe. La multiplicité des champs et de leur qualité jouent également un rôle important.

Pour la qualité des données, on possède parfois des critères objectifs (on préfère une date contenant année, mois, jour à une ne contenant que l’année; ou bien un champ en langue originelle à un autre traduit) mais c’est souvent beaucoup plus flou si l’erreur est difficilement repérable ou a été mise-à-jour à des moments différents. La multiplicité des champs laisse d’autant plus de variabilités dans les résultats. S’assurer de la cohérence de l’entité après mastering devient un véritable enjeu. Prenons le cas d’une adresse, je pourrais choisir un code postal qui ne correspond pas à la ville.

Pour choisir quoi choisir lors du mastering, on peut opter pour différentes politiques:

  • vote à la majorité: le champ le plus présent est choisi comme valeur finale.
  • 'dernière valeur’: si les champs sont datés, on préfèrera la dernière version du champ.
  • qualité intrinsèque: on sait que certaines sources d’informations proposent des données de qualité exceptionnelle et d’autres de peu de valeur. On peut imaginer une hiérarchie de ces sources.
  • par domaine: les champs les plus critiques au business obéissent à des règles définies mais le mastering est ensuite effectué par chaque domaine, et ce de manière indépendante. Au lieu d’appliquer la même règle partout, on laisse la possibilité au business d’effectuer des traitements particuliers par rapport à son domaine de prédilection.

C’est un véritable enjeu de s’assurer que l’entité qu’on a ainsi créée est cohérente et consistante par rapport à tout le business. En particulier, que si on appliquait l’entity resolution avec ces entités maîtres, on arriverait bel et bien au même résultat. Surveiller l’évolution peut être capital. On peut avoir des approches plus qualitatives où on sait que certaines entités sont bien plus capitales au business que d’autres et effectuer des contrôles visuels de qualité. Ou alors quantitatives en voyant évoluer le nombre de records qui formaient cette entité et vers où ils sont redirigés; ou bien les entités dégénérées qui regroupent un très grand nombre de records ou esseulées.

Attention que le choix du mastering a des impacts très fort sur l’identification de ces données de référence. En effet, parfois, on possède un identifiant externe (un numéro de TVA par exemple) qui permet éventuellement d’invalider un cluster et de se référer de manière unique à une entité, peu importe sa forme finale. Dans d’autres cas, on ne possède pas d’identifiant. Il faut alors le créer et faire attention à la manière dont il évolue par rapport à des modifications au niveau de l’entity resolution, de l’ajout de nouvelles données ou de la manière dont les données sont consolidées, masterisées.

  • Hash des champs 'discriminants’: si on hash les valeurs de tous les champs discriminants (qui ont été employés pour l’entity resolution), on limite les problèmes en cas d’ajouts ou de disparitions d’entités dans le cluster. Mais dès qu’un record ajoute ou supprime un champ discriminant, on se retrouve avec un nouvel identifiant.
  • Identifiant du premier record: particulièrement stable mais le record risque d’avoir pris part dans plusieurs entités différentes (sans relations entre-elles).
  • Hash du cluster en entier: très peu stable mais évite les problèmes de mastering et unmastering.

On peut penser à plusieurs manière de fournir un identifiant à une entité si aucun n’est donné de manière fiable, mais il faut bien comprendre comment celui-ci évolue en fonction de l’ajout de nouveaux records, de nouveaux champs, de la création d’entité, puis scission et éventuellement reformation. Il n’existe pas de solutions miracles et il est souvent nécessaire de sauvegarder une table supplémentaire reprenant les changements d’idenfiants et à quel moment cela s’est produit.

Changements profonds et accompagnements

J’espère que vous aurez compris que l’entity resolution et le master data management peuvent jouer un rôle critique dans une société sur lequel toute de la valeur ajoutée va venir se greffer. Ce sont des choix lourds de conséquence qui nécessite une communication importante. Définir les buts et objectifs d’un tel changement est important. Qui aurait pu imaginer qu’, en cherchant à revoir le système de résolutions et de mastering des entités, cela pourrait changer le mode d’identification des entités au sein de l’entreprise, et que cela impliquerait des impacts importants sur les clients puisque rien ne serait vraiment comparable ? Certainement pas certains hauts managers d’une certaine société du S&P 500 qui sont là pour donner leur accord mais qui sont très fiers de dire qu’ils ne comprennent pas ce sur quoi l’opérationnel travaille alors qu’on a des réunions chaque semaine depuis 1 an sur la problématique 🙄.

Ce travail est fortement lié aux principes de gouvernance de la donnée. Et de manière plus générale, implique toute la société parce que cela entraîne des changements profonds, tant au niveau des flux business et donc opérationnels, que de décisions, de stratégies et d’implémentations. Le but du MDM consiste notamment en la suppression des silos afin de permettre une meilleure collaboration et exploitation des données. Bien sûr, si la société ne possède pas déjà un certain niveau de maturité quant à la gestion de la donnée, il vaut peut-être mieux se concentrer sur d’autres thématiques en priorité.

Il existe deux grands supports à cette problématique que sont le Capability Maturity Model Integration (CMMI) ou le Data Management Association (DAMA) Data Management Body of Knowledge (DMBOK). Ces livres fournissent un cadre de travail afin d’évaluer le niveau de maturité dans différents domaines associés à la données. Ils peuvent permettre de définir des critères d’évaluations que l’on souhaiterait obtenir en terme de gouvernance, qualité, architecture, sécurité, stratégie, … et de comparer avec la situation actuelle afin de dresser un état des lieux et des plans d’actions plus concrets.

D’aucun pourrait proposer des questionnaires d’évaluation aux différentes parties prenantes (stakeholders) dans toutes les unités business afin d’aider à la compréhension de la situation actuelle et mettre en évidence les manques. Ou être plus agressif et fournir un audit interne sur la qualité et la consistance dans données au sein des différents systèmes. Bien sûr, les objectifs ne sont pas les mêmes en fonction du niveau de criticité de la donnée au sein de l’entreprise, une boîte informatique devrait sans doute présenter un niveau de maturité plus élevé qu’une société d’exploitation minière. Essayons de comparer ce qui est comparable, mais en s’inspirant d’un "idéal".

On peut alors identifier où se situent les points d’améliorations et les prioritiser en fonction de très nombreux critères. Fournir un plan d’amélioration (souvent au doigt très mouillé) mais dont les objectifs sont clairs, avec des étapes concrètes qui peuvent être avalisées par l’opérationnel. Mesurer les progrès devient alors possible et il faudra sans doute revoir si l’on répond bien aux besoins initiaux fixés et que l’on s’améliore par rapport à l’état des lieux précédemment établi. Tout ce que l’on entend classiquement par le change management: dont communiquer régulièrement et clairement sur les objectifs et ce qui a été accompli. Recueillir les ressentis des différentes parties prenantes afin d’alléger les tensions qui vont apparaître, …

Conclusions

On espère que cette paire d’articles vous aura donné une meilleure vue sur la réalisation concrète d’un système de gestion des données de références. Mais surtout, quels sont tous les problèmes et enjeux que cette thématique peut proposer. Ce sont des grosses décisions structurelles qui ont tendance à affecter toute la société, et qui ne s’effectuera pas sans une forte collaboration entre toutes les parties prenantes du projet. Une communication forte entre le management et l’opérationnel est plus que primordiale dans cette transition, des décisions techniques peuvent avoir de fortes conséquences stratégiques, et celles stratégiques peuvent fortement influencer l’opérationnel. Une fois mis en place, cela devient extrêmement difficile de revenir en arrière puisqu’ils induisent toute la communication et flux business de la société.