La valeur d’un catalogue de données et ses cas d’usage

Quelques raisons supplémentaires pour déployer un catalogue de données sur votre patrimoine informationnel.

C’est l’histoire de deux Data Scientists, Marc et John, qui entrent dans une bibliothèque à la fin d’une longue journée.

Marc s’adresse au bibliothécaire : « Puis-je obtenir un exemplaire de ce livre sur les méthodes statistiques ? » Puis il donne le nom du livre.

John dit à Marc : « Elle ne trouvera jamais ce livre. »

La bibliothécaire tape sur le clavier pendant quelques secondes avant de répondre :

« J’ai trouvé ! Voici les informations concernant son auteur, son éditeur et son historique d’emprunt. Oh, et quelqu’un a laissé un commentaire disant qu’il le trouvait super utile pour comprendre les régressions logistiques. Je peux vous le récupérer en un clin d’œil »

Marc dit à John :

« Hmm… pourquoi ne pouvons-nous pas faire la même chose avec nos données ? »

Et si cela était possible ? Les catalogues de données sont passés du statut de technologie prometteuse à celui de pratique d’entreprise incontournable. A présent, il est devenu beaucoup plus simple de maîtriser votre patrimoine de données afin de comprendre, améliorer et sécuriser l’usage de vos données.

Avant tout, qu’est-ce qu’un catalogue de données ?

La façon la plus simple de définir un catalogue de données est de considérer qu’il s’agit d’une bibliothèque ou d’un inventaire de tous vos actifs informationnels, un endroit où toutes vos données sont soigneusement indexées, organisées et tenues prêtes à l’emploi afin de maximiser leur potentiel. Un catalogue permet également la gestion des métadonnées, l’objectif principal du catalogue est de permettre à tous les utilisateurs d’accéder aux données en self-service afin d’effectuer leurs analyses.

Pourquoi les entreprises ont-elles besoin d’un catalogue de données ?

Une approche fondée sur les données

Les GAFA (Google, Amazon, Facebook, Apple) et les autres géants du web tels que Uber, Airbnb ou bien TripAdvisor sont les entreprises les plus influentes de nos jours. Ces entreprises américaines sont parmi les plus puissantes au monde et ont toutes un point commun : elles sont toutes Data Driven.

C’est quoi être Data Driven ?

L’approche Data Driven est une démarche qui consiste à prendre des décisions basées sur l’analyse des données en sa possession ; ce faisant, l’entreprise cherche à s’améliorer afin d’optimiser les performances ou bien les processus de son organisation. Pour être Data Driven et marcher dans les pas des GAFA, la première étape est de comprendre ses données.

Comment être Data Driven dans le contexte du Big Data ?

De nos jours, la disponibilité et l’utilisation de données ont littéralement explosé (Big Data oblige), à tel point qu’il est difficile pour les entreprises de gérer efficacement lesdites données. Dans ce contexte, les entreprises traitent des volumes de données de plus en plus importants, pour certaines organisations cela représente des dizaines de téraoctets de données. Par ailleurs, la vélocité, ou bien la vitesse à laquelle les données sont créés et traitées par entreprise, est en pleine expansion, à l’instar de la variété des données qui correspond à la prolifération de types de données provenant de sources de plus en plus diversifiées. Vous les aurez sans doute reconnus, il s’agit des trois V du Big Data.

Ce contexte du Big Data impose une gouvernance des données, car c’est elle qui permet l’homogénéisation des activités du data management, la coordination des directions métiers ainsi que l’alignement des pratiques de gestion des données avec la stratégie d’entreprise. Pour être efficiente et pertinente, la gouvernance des données doit s’appuyer en partie sur les catalogues de données, catalogues qui permettent aux organisations de comprendre leur patrimoine informationnel et, par conséquent, le traiter comme un actif, c’est-à-dire un élément qui va apporter de la valeur. Cette valeur peut être d’ordre financier, mais peut également se traduire par l’optimisation des processus et des activités, par une meilleure gestion des risques d’exploitation, etc.

Un catalogue des données permet en partie aux entreprises de résoudre ce problème du Big Data, car un catalogue offre la possibilité de consolider les métadonnées nécessaires aux entreprises pour comprendre leurs données, connaitre l’origine de ces dernières (CRM, SCM, ERP, etc.), à quelles étapes elles ont subi une transformation et, le cas échéant, par qui.

Les deux principaux éléments constitutifs d’un catalogue de données

Le catalogue correspond à la fusion d’un glossaire métier et d’un dictionnaire de données. Cette fusion est importante car elle permet à la fois d’avoir une vision métier grâce au glossaire mais également une vision plus technique grâce au dictionnaire de données. (Pour avoir plus de détails sur ces deux éléments incontournables, vous pouvez consulter notre article sur le sujet)

Pourtant, même les GAFA et les autres géants du web peuvent rencontrer des difficultés pour concevoir, structurer et alimenter leurs catalogues de données. Pour faire face à ce problème, ils utilisent un outil pour organiser, centraliser et valoriser leurs données, en bref un outil de catalogage de données. Google, par exemple, utilise Google Goods, Airbnb utilise Data Portal et Twitter utilise Data Access Layer.

Dans la première partie de cet article, nous avons démontré l’importance d’avoir un catalogue des données. A présent, nous allons introduire la notion de cas d’usage, cas d’usage dont les bénéfices induits devraient vous convaincre de construire votre propre catalogue au sein de votre organisation.

Cinq cas d’usage d’un catalogue des données.

Cette liste n’est en aucun cas exhaustive mais ce sont quelques cas d’usage jugé utiles et illustrant bien l’intérêt pour toute entreprise de la mise en place d’un catalogue de données. Ces cas d’utilisation ont été identifiés lors de différentes missions de Data Governance menées par Pramana auprès de ses clients. La gestion des données et la gouvernance des données constituent un domaine d’expertise fort au sein de Pramana, nous souhaitons par conséquent proposer quelques retours d’expérience via ces exemples.

Abordons plus en détails les opportunités offertes par un catalogue de données :

- La découverte de données : un catalogue permet aux utilisateurs de trouver de manière rapide, grâce au moteur de recherche, des données fiables certifiées et prêtes à être utilisées par les analystes et data scientists. Grâce aux métadonnées, un utilisateur peut également comprendre le contexte autour de la donnée. Un catalogue donne également une vision 360 sur toutes les données (dans quel domaine les données sont contenues, les utilisateurs qui manipulent la donnée et le lineage des données de bout en bout).

- Appliquer la gouvernance : Toute entreprise qui prétend être Data Driven doit avoir un programme de gouvernance des données ; la réussite d’un catalogue dépend grandement de la gouvernance appliquée à celui-ci. Une gouvernance active et pertinente du Data catalogue permet d’éviter la perte en qualité des données. Cela permet de rassurer les utilisateurs, qui seront sûrs de trouver la bonne information, information certifiée qui plus est. Dans le cas contraire, les utilisateurs pourront signaler les données de mauvaise qualité, ou, information toute aussi intéressante, indiquer les usages tolérés pour chaque donnée.

- Promouvoir la collaboration : Un catalogue de données permet d’avoir une meilleure visibilité sur le patrimoine informationnel d’une entreprise ; ainsi les collaborateurs peuvent « commenter », « tagger », « liker » ou bien même « voter » sur ce qui est contenu dans le catalogue. Toutes ces fonctionnalités permettent d’enrichir la qualité des métadonnées, les statistiques d’utilisation sur les métadonnées peuvent aider les analystes à trouver les données les plus populaires et les plus pertinentes, données que les utilisateurs peuvent partager entre les différentes équipes.

Pour illustrer l’utilité des commentaires, supposons que nous sommes dans une entreprise qui est présente dans plusieurs pays européens. Un utilisateur en France peut poser une question sur une définition contenue dans le glossaire, cette question peut également servir à une autre personne qui se pose peut-être la même question en Belgique. Cela représente un gain de temps considérable pour les entreprises, car les utilisateurs pourront comprendre les données plus vite.

- Sécuriser les données sensibles : Un autre avantage d’un catalogue des données est de créer des groupes d’utilisateurs dans le catalogue. Cette fonctionnalité est surtout utile dans les grosses organisations qui sont présentes dans de nombreux pays. Chaque pays peut avoir sa propre communauté dans le catalogue et ainsi partager ces informations en toute sécurité. La création des groupes permet également de restreindre l’accès aux données sensibles et de les partager avec un groupe très restreint. Certains catalogues des données permettent également un partage des données limité dans le temps, c’est-à-dire, accorder l’accès aux données pendant un mois, une fois ce laps de temps écoulé, l’utilisateur n’aura plus accès à ces informations.

- Gestion des transitions organisationnelles : Une organisation qui connaît un fort turnover peut également tirer profit des atouts d’un catalogue de données. De fait, les nouveaux collaborateurs pourront se former et se familiariser en toute autonomie avec le vocabulaire de l’entreprise, accéder à une connaissance exacte sur le patrimoine informationnel de l’entreprise et ainsi monter en compétence de façon fluide et rapide.

Si vous avez poursuivi votre lecture jusqu’à ce point, vous devez à présent être convaincus de l’importance pour une organisation d’avoir un catalogue de données bien pensé et bien mise en place. Ce constat est d’autant plus d’actualité à l’ère du Big Data et des défis qu’elle implique pour la gestion des données.

Cet article s’est principalement concentré sur les raisons pour lesquelles un catalogue est important et sur ses cas d’utilisation. Dans un prochain article, nous parlerons des caractéristiques principales d’un catalogue de données.

Annan Rashid
Consultant Pramana

--

--

Designing The Digital World — Data Governance, Enterprise Architecture — more on pramana.fr and on LinkedIn

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Pramana

Pramana

118 Followers

Designing The Digital World — Data Governance, Enterprise Architecture — more on pramana.fr and on LinkedIn