La Gouvernance des Données peut-elle être un levier pour l’IA et la Data Science ?

Quelques pistes pour créer une synergie entre Données, Organisation et Usages.

Le volume, la variété et la vélocité des données continuent de croître à une vitesse toujours plus grande. Dans ce contexte, les entreprises se trouvent confrontées à deux défis urgents : mieux exploiter et mieux protéger la donnée. Ainsi, beaucoup d’organisations ont créé d’énormes clusters (du type Hadoop), des Data Lakes et des bacs à sables (sandbox) à des fins d’exploration des données et d’industrialisation de cas d’usages basés sur des études de Data-science et de Machine Learning.

De la difficulté de passer du POC (Proof of Concept) à l’industrialisation :

Malgré la volonté des entreprises d’innover en ce sens et malgré la multiplicité des cas d’usage d’IA et de data science qui ont été testés, bon nombre de ces expérimentations n’ont pas pu être industrialisés. Quelle est l’explication de ce paradoxe ?

Outre les contraintes techniques éventuelles, une piste de réponse à cette question est le fameux phénomène de « Garbage in, Garbage out » (« données poubelle en entrée, donnée poubelle en sortie »). Mais que signifie vraiment cette expression ? Et la gouvernance de la donnée peut-elle être un moteur pour transformer ces « déchets » en « or » ?

Avant de proposer des pistes de réponse à cette question, il est important de clarifier ce que nous entendons par chacun des termes suivants : Gouvernance des données, Data-Science, Machine Learning, Intelligence artificielle. Le schéma suivant explique le sens de chacun de ces concepts et explicite les interactions entre eux.

Remonter aux causes-racines du « Garbage in, Garbage out » :

Ce travail de définition étant fait, nous pouvons à présent aborder le phénomène de « Garbage in, Garbage out ». De fait, la Data Science, l’IA et le Machine Learning peuvent être amenés à utiliser une donnée parfois mal comprise ou de mauvaise qualité. Cette problématique est qualifiée dans la littérature de « Garbage in », problématique pour laquelle on peut identifier plusieurs causes :

Un biais dans la définition de la donnée dû à :

  • Une multitude de définitions d’une même donnée
  • Un vocabulaire inconsistant pour la qualifier
  • Une méconnaissance du périmètre de la donnée

Un biais dans la compréhension du contexte de production et de collecte de la donnée dû à :

  • Un manque d’identification d’experts du domaine de donnée qui revoient la donnée avant son utilisation (notamment pour la relier aux activités métiers)

Des problèmes de qualité :

  • Données incomplètes, inconsistantes, non-valides ou non mises à jour
  • Une structuration des données ne correspondant pas au besoin des utilisateurs et la présence de données mal ou non labellisées
  • Un volume insuffisant des données pour tester la robustesse des algorithmes

L’utilisation de la mauvaise source de données

  • Les master data ou les données de référence ne sont pas systématiquement utilisées
  • A cause de problèmes d’accès à la donnée, la meilleure source de données n’est pas toujours prise en entrée

Des problèmes de protection de la donnée :

  • Le non-respect des règles de confidentialité et d’anonymisation

Des bonnes pratiques sur l’usage de la donnée non connues et non intégrées dans les processus et dans les activités quotidiennes.

Des raisons de collecte de la donnée non explicitées ou non consenties :

  • Un usage non éthique de la donnée peut en être la conséquence

Des référents de données non identifiés :

  • Un manque de responsabilisation des collaborateurs sur l’importance d’avoir une donnée de qualité sur toute la chaîne du processus métier.

En somme, un algorithme, aussi sophistiqué soit-il, appliqué à une donnée non maîtrisée, ne peut pas créer de la valeur, ce qui donne lieu à un « Garbage out » soit des résultats fallacieux inexploitables et ne permettant donc pas de répondre aux objectifs métiers de l’entreprise ni de prendre des décisions clairement justifiées.

Formulé autrement, comment entraîner une machine sur une donnée que nous-même ne maîtrisons et ne comprenons pas ? Est-ce que la gouvernance peut se révéler utile pour prévenir et, si nécessaire, régler ces problématiques ?

La gouvernance des données comme solution potentielle au « Garbage in, Garbage out » :

La gouvernance de la donnée souligne l’importance de cet enjeu de qualité des données et cherche, à travers la promotion des bons comportements dans l’usage de donnée, à améliorer la compréhension et la qualité de la donnée en entrée des algorithmes. Elle souligne le fait que, dans un monde où on a tendance à avoir aveuglément confiance dans les résultats du machine learning, il est d’autant plus important de mettre en place un cadre d’échange pour remettre en question de manière éclairée les données en entrée et en sortie des algorithmes développés.

Pour ce faire, la gouvernance des données s’appuie sur trois piliers :

  • La gouvernance de la donnée repose sur des principes et des politiques qui permettent de guider les bons réflexes à avoir lors de la définition, la collecte et le partage des données.
    Un des principes structurants dans la gouvernance de la donnée est que « la donnée est un actif de l’entreprise » et qu’elle doit être gérée en tant que tel. Cela implique une gestion continue de la qualité des données et la mise en place d’actions correctives qui pourront améliorer la qualité du « Garbage in » en entrée des algorithmes d’IA, de Data science et de Machine Learning.
  • La gouvernance de la donnée permet de responsabiliser les collaborateurs d’une organisation pour gérer la donnée comme un actif de l’entreprise dans leurs activités quotidiennes (la gestion de sa documentation, de sa qualité, son usage dans un cadre respectant les règles de confidentialité et d’éthique, etc.).
    En effet, en identifiant des rôles et des référents de domaines de données, la gouvernance instaure un cadre dans lequel il y a plus de temps et de personnes affectés à la compréhension et à la l’implémentation des bonnes pratiques d’usage de la donnée. Ce temps et ces ressources sont cruciales étant donné la volumétrie et la complexité croissante des données collectées et les délais de plus en plus courts accordés au développement des cas d’usage (l’Agile, le temps réel, etc.).
  • La gouvernance de la donnée favorise l’instauration d’un langage commun sur la donnée. Ce langage commun est matérialisé par la mise en place d’un catalogue de données universel et diffusé dans l’entreprise. Ce dernier, s’il répond bien aux besoins des data-scientists en termes de documentation de la donnée, peut accélérer le travail d’investigation amont de la donnée, à savoir : quelle source utiliser, est-ce que la source est une référence partagée, quelles règles de gestion ont été appliquées à la donnée avant son arrivée dans la source retenue, etc.

Grâce à l’implémentation d’un cadre où les problématiques de qualité, de définition partagée, de protection et d’éthique de la donnée peuvent être traitées, la gouvernance de la donnée peut être un levier positif pour résorber le phénomène de « Garbage in, Garbage out » qui a pu entraver l’industrialisation de nombreux cas d’usages d’IA, de Data Science et de Machine Learning.

Néanmoins, la gouvernance de la donnée pourrait être perçue comme un cadre rigide et incompatible avec le travail d’exploration et d’expérimentation en Data Science et IA. Dans ce contexte, le cadre de gouvernance devrait être assoupli pour l’adapter au processus flexible de la Data-Science tout en restant aligné à la fois avec les principes de gouvernance de la donnée et avec les besoins propres au métier de Data Scientist. Comme perspective d’étude ultérieure, il serait intéressant d’approfondir l’analyse des enjeux et objectifs communs à ces deux disciplines : ce travail permettrait de favoriser la définition de cadres de gouvernance sur-mesure et pérennes.

Marguerita Kanaan
Consultante Pramana

--

--

Designing The Digital World — Data Governance, Enterprise Architecture — more on pramana.fr and on LinkedIn

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Pramana

Pramana

118 Followers

Designing The Digital World — Data Governance, Enterprise Architecture — more on pramana.fr and on LinkedIn