Data Lake

Selon Maxence

Senior Data Engineer

Swile

Qu’est-ce qu’un Data Lake ?

Un Data Lake est un environnement de stockage qui contient un vaste volume de données brutes dans leurs formats natifs. Souvent confondu avec le Data Warehouse, le Data Lake est plus flexible dans le format des données qui peuvent être stockées, et plus propice à l’analyse brute de données.

Data WarehouseData Lake
TéléchargementSeulement de la donnée structuréeTout type de données
StockageCoûteux de stocker de large volumeCoûts de stockage flexible
ModélisationLe modèle doit répondre à une série de questionsPas de questions initiales
Timing de l’analyseTemps de décalage en la mise en place et l’analyseL’analyse peut débuter directement
RéactivitéDes modifications au modèle prennent du tempsLes modèles et les requêtes sont rapidement reconfigurés
UsageLes équipes techniquesLes équipes marketing et data science

Pourquoi mettre en place un Data Lake ?

L’utilisation d’un Data Lake va vous permettre d’avoir une vision centralisée de l’ensemble de vos données, quels que soient les outils que vous utilisez. Vous pouvez ainsi regrouper dans un même espace de stockage vos données web, médias, CRM, transactionnelles, et plus encore.  

L’objectif derrière cette vision unifiée, est de pouvoir répondre avec efficacité et agilité aux enjeux business de votre entreprise. Une fois les données centralisées dans votre Data Lake, vos équipes marketing et data peuvent directement et facilement commencer à traiter les données brutes, les nettoyer, les réconcilier, et les transformer, à des visées d’analyses, de visualisations ou  d’activations marketing avancées. En effet, les environnements disponibles sur le marché permettent d’appliquer directement des requêtes SQL ou des modèles de Machine Learning sur les données stockées dans votre Data Lake grâce à des pipeline de données, toujours de façon rapide et optimisée.


Par ailleurs, tous les types de données peuvent être stockés dans votre Data Lake y compris les vidéos, les images, les fichiers binaires, etc. Vos données peuvent être ingérées dans le Data Lake par flux continu ou par batch, selon vos besoins business.

Quels outils utiliser pour mettre en place un Data Lake ?

Maxence, Senior Data Engineer chez Swile, vous présente quelques outils pour mettre en place un Data Lake.

Google BigQuery. BigQuery est un outil de stockage et de requêtage de données. Intégré dans Google Cloud Platform, BigQuery peut notamment être utilisé conjointement avec Cloud ML et TensorFlow, pour créer de puissants modèles d’IA. BigQuery permet d’exécuter des requêtes SQL sur des téraoctets de données en quelques secondes.

Amazon Redshift. Redshift est un outil directement intégré dans le cloud d’Amazon. Tout comme BigQuery, la plateforme permet de traiter de très large volume de données en quelques secondes.
Microsoft Azure SQL DWH. Azure SQL est une base de données relationnelle de Microsoft basée sur le cloud. Bien que moins intuitif que ses homologues Google et Amazon, cet outil sera adapté si les outils utilisés par votre entreprise sont déjà implantés dans l’environnement Microsoft.

Comment déployer un Data Lake ? 

Pour mettre en place un Data Lake, Maxence vous recommande de suivre les étapes suivantes :

  1. La première étape, comme souvent, est de bien définir les besoins business en termes d’analyses et d’activations marketing. Il faut également identifier les outils utilisés par votre entreprise, les sources de données correspondantes, ainsi que les clés de jointure permettant la réconciliation des différentes sources.
  2. Ensuite, l’objectif est de définir techniquement les schémas et caractéristiques des données sources, et des tables de sortie qui seront issues du processing de données. C’est à cette étape qu’il est également important de spécifier les règles de traitement qui seront appliquées pour transformer les données.
  3. Par la suite, les équipes techniques peuvent configurer l’architecture du Data Lake, créer les connecteurs permettant l’on-boarding des données sources et les pipelines de données contenant l’ensemble des traitements nécessaires à la création des tables de sortie. En général, cette étape se fait dans un environnement de test. 
  4. Enfin, si l’environnement de test est validé par une recette exhaustive et précise, le Data Lake et les traitements peuvent être mis en production. Il faut également prévoir à cette étape de mettre en place un système de monitoring, afin de s’assurer que le processing fonctionnera correctement dans le futur.

Il est tout de même important de noter que le processus de déploiement d’un Data Lake nécessite du temps, et un effort partagé de la part de plusieurs équipes de l’entreprise, en général les équipes CRM, digital, Marketing et Tech.

Je construis mon programme sur-mesure

J’ai des fonctions RH ou formation

Je veux former mes équipes !

Je suis reponsable marketing, tech, ou sales

Je veux former mes équipes !

Je suis salarié ou indépendant

Je veux me former moi !