Le Data Lake expliqué à mon boss avec @CGI_FR

Alors qu’on répète à l’envi que les marketeurs doivent acquérir la culture de la donnée, et que les études montrent toujours que des progrès conséquents restent encore à faire, il m’a semblé pertinent de faire un zoom sur un sujet que beaucoup de marketeurs pourraient encore trouver mystérieux : le « Data Lake ».

Il est vrai que le nom est poétique et évocateur mais entouré d’un halo de technicité. Quoi qu’il en soit, le Data Lake est au centre du sujet des Big Data. La grande ESN franco-canadienne CGI m’ayant missionné [transparence] pour rédiger un article sur le sujet des données, j’ai profité de la sortie de leur livre blanc sur le sujet (« industrialisation du Data Lake ») pour approfondir le sujet et tenter de le mettre à la portée des marketeurs et de leurs patrons. Voici donc le Data Lake expliqué à mon boss. Qui sait, peut-être un futur best-seller aux éditions Kawa ?

Le data lake expliqué à mon boss

Etat des lieux : les entreprises et la donnée

Avant toute chose, il me semble fondamental de revenir sur la réalité de la donnée dans les entreprises et sur les chiffres. Pour cela je me suis penché sur la version 2019 du rapport d’étude de NVP, publié 7 ans après la première édition. Il est particulièrement éclairant.

« Un verre à moitié plein et à moitié vide » nous expliquent Thomas Davenport et Randy Bean dans leur introduction.

En résumé, nous n’en sommes plus aux incantations sur la donnée, même s’il faut rester prudent du fait du décalage avec les USA. La perception de l’importance du sujet par les dirigeants est patente. 55% des entreprises interviewées par NVP déclarent dépenser plus de 50M$ sur ces sujets, soit une hausse de 15 points par rapport à 2018 et 21% dépensent même plus de 500M$.

L’effervescence recensée lors du dernier salon des Big Data, dont nous étions partenaire média, et les discussions avec les professionnels sur les stands ont confirmé que de ce côté-ci de l’Atlantique également l’activité était soutenue.

Des résultats tangibles mais encore un défi pour l’organisation

Mieux encore, 62% observent déjà des résultats tangibles sur la base de leurs investissements en IA et en Big Data, sujets devenus désormais indissociables.

Voici pour le verre à moitié plein : des managers intéressés, convaincus de l’importance du sujet, de son caractère stratégique, mais qui considèrent encore à 77% que l’adoption de ces initiatives reste un défi pour leurs organisations.

C’est pourquoi il faut être capable d’aller au-delà des discussions philosophiques et de se plonger dans des domaines autrefois réservés aux informaticiens.

Le boss du 21ème siècle se doit de comprendre un minimum de choses sur ces outils, surtout s’il dépense un demi-milliard d’euros sur ses investissements en Big Data.Click to Tweet

Qu’est-ce qu’un Data Lake ?

Depuis l’invention des « data warehouses » ou « entrepôts de données », beaucoup d’eau a coulé sous les ponts. La frontière entre ces entrepôts et la notion de Data Lake n’est pourtant pas forcément très nette, et c’est par là que commence Vincent Ambroise de CGI en introduction de son livre blanc.

Pour simplifier, le Data Lake agit en complément d’un entrepôt de données, il ne vient pas le remplacer. Il lui apporte un complément en sources de données (et en formats).

Le Data Lake est un référentiel de données brutes alors que l’entrepôt de données stocke des données déjà traitées. Talend, éditeur français de solutions Big Data définit cela très bien dans un tableau que j’ai adapté :

data lake - entrepot données
Les différences entre Data Lake et entrepôt de données [traduite et adapté d’un document de TALEND]
Les Data Lakes sont donc vraiment orientés Big Data. Pour ceux qui sont familiers du travail que j’avais initié il y a quelques années, ce sont ces nouveaux formats de données et de bases de données qui permettent ce que j’avais décrit comme étant « le marketing de l’incertain ».

Pour réaliser un Data Lake, il faut donc une capacité de stockage bien plus grande que pour un data-warehouse classique. Les données brutes sont aussi plus malléables et de ce fait elles se prêtent bien au « machine-learning », l’apprentissage statistique qui est derrière bien des applications baptisées hâtivement « IA » (comme la reconnaissance vocale ou de l’écriture à apprentissage par exemple).

Pourquoi les responsables business doivent s’intéresser au Data Lake

livre blanc sur le data lake de CGILe Data Lake n’apparaît donc pas au prime abord s’adresser aux responsables du business, mais cela ne veut pas dire qu’il faut s’en désintéresser. Au contraire, c’est en se familiarisant avec ces sujets liés à la donnée que l’on comprend mieux à quoi ils peuvent servir sur le terrain, pour ses clients, son entreprise, sa performance.

Le Data Lake est un « espace de liberté » pour reprendre le vocabulaire utilisé par les experts de CGI, un endroit où au sein d’équipes agiles (nommées Data Labs), les analystes vont mettre à jour des corrélations entre les données.

Cet espace de données non prédéterminé élargit donc le champ des possibles, mais il ne faut pas non plus se laisser aller à faire n’importe quoi (voir cet article dédié aux marécages de données ou data swamps) au risque de faire naître la frustration et l’échec.

Big Data et Data Lake
Schéma issu du livre blanc de CGI expliquant l’articulation d’un Data Lake avec tout l’écosystème de l’entreprise y compris l’entreprôt de données

Pourquoi un Data Lake ? Exemples d’application

Tout cela est très bien mais pourquoi un boss (et sa société) aurait-il besoin d’un Data Lake ?
La littérature est assez fournie à ce sujet et les raisons avancées sont multiples. On peut les résumer ainsi :

  • Pour abriter des données non structurées ou semi-structurées. et/ou qui arrivent en continu et / ou qui s’accumulent rapidement ; elles sont stockées sur des espaces cloud bon marché (comme Amazon S3 par exemple) ;
  • L’entrepôt de données quant à lui, nécessite en amont un travail de nettoyage des données très important. Avec les Data Lake, les coûts de nettoyage et de préparation sont moindres (et pour cause puisqu’il s’agit de données brutes) ;
  • Le Data Lake propose une meilleure adaptabilité : les changements y sont plus aisés du fait du stockage des données en format brut. La performance sera par contre le prix à payer pour la souplesse.

Mais qu’en pense le boss dans tout ça ? Quel est le besoin pour le business ? Quelles applications pratiques ?

Si la littérature est bien fournie pour distinguer techniquement les Data Lakes des entrepôts de donnée, il faut bien reconnaître que les aspects fonctionnels sont beaucoup moins documentés.

Le boss reste sur sa faim.

Alors, pour quelles raisons devrais-je investir des centaines de milliers d’euros sur de tels projets et quelles sont les applications pratiques de ces technologies ?

  • Premièrement, tous les domaines où les données ont massives, en temps réel, et peuvent donner des insights intéressants pour l’action. Cela peut être le cas pour l’alertage, les applications industrielles ou non de l’Internet des objets (IoT et IIoT), les applications sont infinies, on peut notamment imaginer d’autres usages dans l’environnement et l’agriculture connectée par exemple ;
  • Ensuite le marketing temps réel avec les recommandations en ligne, l’analyse des choix, les regroupements d’utilisateurs par comportements similaires (lookalikes) dont j’ai déjà parlé dans ces colonnes, y-compris le lien avec les systèmes de couponing et la réconciliation online- offline (dans la perspective d’un commerce automatisé). On imagine sans peine que la donnée va prendre un poids considérable, on est bien ici dans le cadre d’usages qui restent largement
    à inventer cependant. Des applications nombreuses en termes de personnalisation, avec la limite qu’on sait en matière de respect des données privées, sont aussi possibles quand les systèmes de balises géopositionnées seront entrées dans une phase de matûrité. On imagine aussi des applications dans la Finance en ligne (exemples) ;
  • Il existe également des applications dans le commerce de détail tel que cela est expliqué le livre blanc, le caractère sensible de ce type de projets ne permettant cependant pas toujours d’obtenir des cas d’expérience détaillés ;
  • Enfin dernier exemple que je citerais ici, mais en aucun cas l’ultime application de cette technologie, le domaine de l’éducation, notamment en ligne, avec la personnalisation de parcours sur mesure en fonction de l’historique et du profil de l’apprenant. Même si cela peut paraître lointain de ce côté-ci de l’Atlantique, des exemples existent ailleurs qui permettent de se faire une idée du potentiel.

En somme, comme le résument en quelques mots les experts de CGI dans leur livre blanc:

« demain, le Data Lake doit jouer ce même rôle que les bases de données d’hier, pour l’intégration et l’utilisation de la Data science et le développement de l’intelligence artificielle ».

Un enjeu d’innovation, et pas seulement de technologie, qui touche tous les métiers du futur. Si ce n’est pas déjà le cas, il est plus que temps que votre boss s’y mette.

Industrialiser le Data Lake, pour quoi faire ?

Pour réaliser toutes ces promesses, le bricolage informatique n’est pas de mise. Finies les preuves de concept (POC) des débuts et que nous avons décriées dans un livre blanc antérieur. L’heure est à l’industrialisation IT.

Les experts de CGI prônent une démarche qui concerne toutes les composantes de l’environnement : infrastructure hardware et logicielle, cloud et réseau (pour répartir les calculs massivement parallèles) et humains et organisationnels (méthode de travail en data lab agile) et gouvernance des données.

Sans oublier la sécurité qui nécessite un renforcement car les Data Lakes sont réputés moins robustes dans ce domaine que leurs aînés (entrepôts de données). c’est à ce prix de rigueur et de professionnalisme que Le Data Lake pourra apporter des bénéfices, et c’est la méthodologie décrite dans le livre blanc par les experts de CGI.

Qu’est-ce qu’un boss doit retirer de tout cela ?

Les possibilités offertes par les Data Lakes nous l’avons vu sont impressionnantes. Il s’agit essentiellement d’un domaine en construction et en plein boom. Cela ne veut pas dire qu’il faut s’en remettre aveuglément au bon vouloir de la Data Science, voici mes conseils pour mener à bien ces projets.

  1. Les dirigeants et les marketeurs ne doivent pas laisser ces domaines aux seuls techniciens en se laissant distancer et en leur faisant une confiance aveugle. Sous peine de dépenser des sommes de plus en plus impressionnantes sans toujours comprendre pourquoi. Il faut au contraire que les hommes métiers s’impliquent en amont sur ces projets afin d’en assurer la réussite ;
  2. Ne jamais perdre de vue l’utilité ultime de ces projets … mais ne pas avoir d’idées préconçues : il faut pas prendre le Data Lake pour une fin en soi. Le but de l’entreprise n’est pas de construire des entrepôts de données fussent-ils nouvelle norme. Le but ultime est de construire ces Data Lakes en ramenant toujours le substrat technique à son usage ultime. Comme on l’a vu, cela se fait en mode agile. Cela veut dire que les apports de ces nouvelles technologies ne sont jamais tous prévus au départ, et c’est pour cela que les hommes métiers doivent s’impliquer volontairement et dynamiquement dans ces projets ;
  3. Le Data Lake va permettre d’établir des corrélations qui ne seront pas toutes utiles et qui, surtout, ne doivent pas être confondues avec les liens de cause à effet. Je l’ai aussi expliqué plusieurs fois, la donnée n’est pas l’information, il faut se méfier des discours marketing trop hâtifs.

Voilà la fin de ce rapide tour d’horizon qui, je l’espère, vous aura fait comprendre que même si vous n’êtes pas un Data Scientist, il est plus que temps de vous intéresser aux Data Lakes, surtout si vous êtes le boss et que vous devez prendre des décisions sur ce type de projets.

Le Data Lake expliqué à mon boss avec @CGI_FR was last modified: avril 27th, 2019 by Yann Gourvennec
suivez moi !

Yann Gourvennec

PDG & fondateur chez Visionary Marketing
Yann Gourvennec a créé le site visionarymarketing.com en 1996. Il est intervenant et auteur de 4 ouvrages édités chez Kawa. En 2014 il est devenu entrepreneur, en créant son agence de marketing digital Visionary Marketing, en association avec Effiliation. Il est directeur de programme du Mastère Spécialisé Digital Business Strategy de Grenoble Ecole de Management depuis 2015
suivez moi !

Votre avis nous intéresse :

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.