Data Lake
Selon Maxence

Senior Data Engineer
Swile
Qu’est-ce qu’un Data Lake ?
Un Data Lake est un environnement de stockage qui contient un vaste volume de données brutes dans leurs formats natifs. Souvent confondu avec le Data Warehouse, le Data Lake est plus flexible dans le format des données qui peuvent être stockées, et plus propice à l’analyse brute de données.
Data Warehouse | Data Lake | |
---|---|---|
Téléchargement | Seulement de la donnée structurée | Tout type de données |
Stockage | Coûteux de stocker de large volume | Coûts de stockage flexible |
Modélisation | Le modèle doit répondre à une série de questions | Pas de questions initiales |
Timing de l’analyse | Temps de décalage en la mise en place et l’analyse | L’analyse peut débuter directement |
Réactivité | Des modifications au modèle prennent du temps | Les modèles et les requêtes sont rapidement reconfigurés |
Usage | Les équipes techniques | Les équipes marketing et data science |
Pourquoi mettre en place un Data Lake ?
L’utilisation d’un Data Lake va vous permettre d’avoir une vision centralisée de l’ensemble de vos données, quels que soient les outils que vous utilisez. Vous pouvez ainsi regrouper dans un même espace de stockage vos données web, médias, CRM, transactionnelles, et plus encore.
L’objectif derrière cette vision unifiée, est de pouvoir répondre avec efficacité et agilité aux enjeux business de votre entreprise. Une fois les données centralisées dans votre Data Lake, vos équipes marketing et data peuvent directement et facilement commencer à traiter les données brutes, les nettoyer, les réconcilier, et les transformer, à des visées d’analyses, de visualisations ou d’activations marketing avancées. En effet, les environnements disponibles sur le marché permettent d’appliquer directement des requêtes SQL ou des modèles de Machine Learning sur les données stockées dans votre Data Lake grâce à des pipeline de données, toujours de façon rapide et optimisée.
Par ailleurs, tous les types de données peuvent être stockés dans votre Data Lake y compris les vidéos, les images, les fichiers binaires, etc. Vos données peuvent être ingérées dans le Data Lake par flux continu ou par batch, selon vos besoins business.
Quels outils utiliser pour mettre en place un Data Lake ?
Maxence, Senior Data Engineer chez Swile, vous présente quelques outils pour mettre en place un Data Lake.



Google BigQuery. BigQuery est un outil de stockage et de requêtage de données. Intégré dans Google Cloud Platform, BigQuery peut notamment être utilisé conjointement avec Cloud ML et TensorFlow, pour créer de puissants modèles d’IA. BigQuery permet d’exécuter des requêtes SQL sur des téraoctets de données en quelques secondes.
Amazon Redshift. Redshift est un outil directement intégré dans le cloud d’Amazon. Tout comme BigQuery, la plateforme permet de traiter de très large volume de données en quelques secondes.
Microsoft Azure SQL DWH. Azure SQL est une base de données relationnelle de Microsoft basée sur le cloud. Bien que moins intuitif que ses homologues Google et Amazon, cet outil sera adapté si les outils utilisés par votre entreprise sont déjà implantés dans l’environnement Microsoft.
Comment déployer un Data Lake ?
Pour mettre en place un Data Lake, Maxence vous recommande de suivre les étapes suivantes :
- La première étape, comme souvent, est de bien définir les besoins business en termes d’analyses et d’activations marketing. Il faut également identifier les outils utilisés par votre entreprise, les sources de données correspondantes, ainsi que les clés de jointure permettant la réconciliation des différentes sources.
- Ensuite, l’objectif est de définir techniquement les schémas et caractéristiques des données sources, et des tables de sortie qui seront issues du processing de données. C’est à cette étape qu’il est également important de spécifier les règles de traitement qui seront appliquées pour transformer les données.
- Par la suite, les équipes techniques peuvent configurer l’architecture du Data Lake, créer les connecteurs permettant l’on-boarding des données sources et les pipelines de données contenant l’ensemble des traitements nécessaires à la création des tables de sortie. En général, cette étape se fait dans un environnement de test.
- Enfin, si l’environnement de test est validé par une recette exhaustive et précise, le Data Lake et les traitements peuvent être mis en production. Il faut également prévoir à cette étape de mettre en place un système de monitoring, afin de s’assurer que le processing fonctionnera correctement dans le futur.
Il est tout de même important de noter que le processus de déploiement d’un Data Lake nécessite du temps, et un effort partagé de la part de plusieurs équipes de l’entreprise, en général les équipes CRM, digital, Marketing et Tech.

Je construis mon programme sur-mesure
J’ai des fonctions RH ou formation
Je veux former mes équipes !
Je suis reponsable marketing, tech, ou sales
Je veux former mes équipes !
Je suis salarié ou indépendant
Je veux me former moi !