Potentiel et opportunités de l’outillage
du catalogage de données

Connaitre et prioriser les fonctionnalités offertes par un Data Catalog

Pramana
7 min readDec 7, 2021

--

Plus d’un an après notre article qui abordait la nécessité de disposer d’un catalogue de données en raison de l’aide que celui-ci apporte pour orienter les organisations vers leurs données, les rendant Data Driven, continuons notre analyse du sujet. Nous allons maintenant parler plus en détails de quelques-unes des caractéristiques principales d’un catalogue de données, nous essayer à comment savoir quelles sont les fonctionnalités les plus importantes pour votre entreprise, ce qui peut se faire notamment par le biais des cas d’usage, cas d’usage qui peuvent également contribuer à faciliter l’adhésion des collaborateurs à ce nouvel outil qu’est le data catalog.

Le marché actuel regorge d’outils qui aident les organisations à exploiter leurs données en créant et en maintenant un Data Catalog. Citons par exemple Alation, Collibra, Informatica, Zeenea, Google Cloud Data Catalog, Talend ou encore IBM Watson Knowledge Catalog.

De multiples fonctionnalités d’un Data Catalog peuvent servir votre organisation

Cet article se propose de lister, de façon non exhaustive, plusieurs des fonctionnalités offertes par un catalogue de données. Il s’agit de quelques fonctionnalités retenues comme plus importantes, choix fondés sur certains cas d’utilisation identifiés lors de différentes missions de Data Governance menées par Pramana.

Disposer d’un Glossaire : Le glossaire métier vise à décrire de manière transverse les connaissances sur les données au niveau métier. Le glossaire doit être utilisé pour donner une définition des concepts métier utilisés dans une organisation. Par exemple, dans une de mes récentes missions, mon client parlait toujours de “Classified”, et je n’avais aucune idée de ce signifiait ce terme. Quelques semaines plus tard, j’ai découvert qu’une “Classified “ est une annonce publiée en ligne. Or j’aurais pu apprendre cela par moi-même bien plus rapidement avec l’aide d’un glossaire.

Un bon outil de catalogue devrait également vous donner la possibilité d’ajouter des informations sur l’ownership, la classification, les règles et les exigences métier relatifs à une donnée, mais aussi les relations entre les concepts métier. Il est destiné aux utilisateurs venant du business, tels que les data stewards ainsi qu’à certains utilisateurs techniques (comme les responsables applicatifs par exemple). L’un des avantages d’avoir un glossaire métier est qu’il permet de s’assurer qu’un vocabulaire cohérent est utilisé dans une organisation. Cela permet de s’assurer que le même vocabulaire est utilisé par tous à propos des données, soit l’établissement d’un langage commun sur la Data. Cette caractéristique clé est souvent liée à la suivante dans cette liste.

S’appuyer sur un dictionnaire de données : Le dictionnaire des données vise à décrire les connaissances sur les données “ techniques “, soit les instanciations des données métier dans les systèmes IT de l’organisation. Des connaissances telles que la structure et le contenu des données, dans quelles bases de données elles sont contenues et implémentées, etc. Si vous vous demandez ce qui relie le glossaire au dictionnaire, la réponse simple est que le glossaire donne un sens au dictionnaire de données.

Par exemple, si vous travaillez dans une entreprise qui traite des données géographiques, que l’INSEE vous fournit ces données, qui sont connues sous le nom de COG (« Code Officiel Géographique »), le dictionnaire affichera cet élément de données comme un “string” alors que le glossaire définira le COG comme ceci : “le Code officiel géographique (COG) est un document qui décrit une série de codes Insee, constituant certains des codes géographiques de la France”. Cet exemple montre comment le dictionnaire et le glossaire sont complémentaires. Un bon catalogue de données devrait donc vous permettre d’établir des liens entre ces deux éléments.

Enrichir la qualité des données : il faut garder à l’esprit que la plupart des outils de catalogage de données ne sont pas des outils de qualité des données. Ils peuvent contribuer à une meilleure qualité des métadonnées, car les catalogues de données stockent des métadonnées, mais c’est souvent à peu près tout. C’est pourquoi nous parlons d’aide pour la qualité des données.

La qualité des données décrit, entre autres, l’exactitude, l’exhaustivité et la cohérence des données. Les organisations ont besoin de données de haute qualité auxquelles elles peuvent se fier afin de pouvoir prendre des décisions importantes. Un catalogue de donnée qui ne dispose pas de métadonnées dignes de confiance perd sa raison d’être. Comme un catalogue de données vise à être une source unique de vérité, si les utilisateurs ne trouvent pas de définitions et de dictionnaires de données de bonne qualité, ils auront tendance à éviter d’utiliser le catalogue de données.

Identifier et impliquer les rôles clés de la gouvernance des données : une autre caractéristique clé d’un bon catalogue est qu’il peut vous permettre de clarifier les rôles sur les données dans l’entreprise elle-même. Le but de cette fonctionnalité est de vous permettre d’identifier pour chaque donnée qui est le data owner, quels sont les data stewards, qui est l’expert d’un point de vue business, etc. Ainsi, les différents utilisateurs de données savent exactement à qui s’adresser lorsqu’ils se posent des questions sur les données. Cela crée notamment une redevabilité vis-à-vis des métadonnées présentes dans le catalogue. Les data stewards s’assureront par exemple que tout est mis à jour et géré de manière cohérente. Cela répond à l’un des objectifs de la gouvernance des données, qui consiste à s’assurer que les données sont gérées de manière appropriée dans une organisation.

Créer et gérer des workflows de validation : les workflows renforcent l’application de la gouvernance des données en affichant clairement le rôle de chaque personne pour chaque opération relative à une donnée (catalogage initial, modification du catalogage existant, etc.). Les workflows « out of the box » qui sont assignés à un data steward ou à un data owner peuvent être utilisés non seulement pour mettre à jour mais aussi pour certifier les actifs de données. Par exemple, un Data steward peut mettre à jour le catalogue et lancer un workflow de “validation”, dans lequel un data owner approuvera son travail. Cela permet de garantir que la qualité de ce qui est documenté reste correcte. Les outils du catalogue contiennent une grande variété de workflows « out of the box » et d’autres qui peuvent être personnalisés ou faits sur mesure.

De l’importance des use-cases pour obtenir l’adhésion au Data Catalog et pour identifier ses fonctionnalités clés pour votre entreprise

Lors du déploiement d’un catalogue de données, il est impératif de mettre en place une stratégie par cas d’usage. Forte des bénéfices et succès visibles apportés pas les use-cases, cette stratégie contribuera grandement à l’adoption et donc à l’utilisation pérenne du catalogue des données. De fait, les cas d’usage permettront d’obtenir des quick-wins et d’ainsi onboarder plus rapidement les collaborateurs de l’organisation. C’est pourquoi, afin de maximiser les chances de succès de vos use-cases, il ne faut pas oublier la notion de faisabilité dans le choix de ces derniers

Les cas d’usage vous permettront également de hiérarchiser et d’attribuer des facteurs de pondération aux diverses fonctionnalités, pour les aligner sur les besoins des utilisateurs et les objectifs de votre organisation. Ce faisant, le recours à la mise en place de cas d’usage permettra d’établir une hiérarchie des fonctionnalités du data catalog les plus utiles pour votre organisation.

Vous pourriez par exemple les répartir en trois catégories : « must have », « nice to have » et «not important ». La priorité la plus élevée (ou les critères “must have”) vous permettra d’établir un short list d’outils y répondant. Vous pourrez ensuite utiliser les niveaux de critères suivants pour évaluer, comparer et trier les outils de cette liste.

C’est par cette approche orientée « use-case » que nous pouvons identifier les bons interlocuteurs à solliciter, que l’on peut définir la bonne structure du catalogue (métamodèle cible), et enfin les métadonnées à prioriser. Si possible les cas d’usage doivent être alignés avec les enjeux stratégiques de l’entreprise, apportant ainsi une forte visibilité pour générer une dynamique autour de l’outil.

Cet article touche à sa fin, nous espérons qu’il vous a permis d’acquérir une meilleure vision des fonctionnalités les plus intéressantes d’un catalogue de données (on ne le répètera jamais assez, il s’agissait d’une sélection subjective et donc volontairement non exhaustive). Faute de place, il n’a pas été possible de s’étendre sur un interlocuteur qui a un rôle non négligeable dans la réussite du déploiement du catalogue des données, à savoir le Data Steward. Dans un article à venir, nous aborderons en détails les différents rôles clés impliqués dans la gouvernance des données, ce qui permettra de faire un focus sur les activités d’un data steward en lien avec le catalogue des données.

Annan Rashid
Consultant Data
Pramana

--

--

Pramana

Designing The Digital World — Data Governance, Enterprise Architecture — more on pramana.fr and on LinkedIn