Data reconciliation

Selon Jennifer

Présidente

La Café Gagnant

Qu’est-ce que le data reconciliation ? 

Le data reconciliation, ou réconciliation des données, est un processus qui permet de regrouper différentes sources de données grâce à un ou plusieurs identifiants uniques. Par exemple, la réconciliation de données permet de regrouper une table contenant des données média (nombre de clics, coût par campagne, etc.) avec une autre table contenant les données analytics (nombre de visites, nombre de conversions, etc.) grâce à un identifiant commun qui fusionne ces informations en une seule ligne de données dans le tableau final.

Cas d’application : comment réconcilier la donnée comportementale avec la donnée transactionnelle ? 

Grâce à votre tracking web, vous pouvez collecter l’ensemble des données comportementales de vos utilisateurs web. Vous savez ainsi comment vos utilisateurs viennent sur votre site, comment ils interagissent pendant leurs sessions, et s’ils convertissent ou non. En parallèle, vous pouvez également collecter des données transactionnelles, que vous avez obtenues lors d’un sondage envoyé à vos clients. 

Afin de pouvoir avoir une vision complète de votre base utilisateurs, il est nécessaire de réconcilier ces deux bases de données :

  1. La première étape est d’avoir accès à la données brutes des différentes source dans un seul et même environnement de stockage : le datalake
  2. Une fois vos données importées correctement dans votre datalake, il est nécessaire de faire une étape de data cleansing : l’objectif est de corriger les données erronées ou imprécises pour les rendre claires et représentatives de la réalité. Cette étape est très importante et permettra une bonne réconciliation entre vos sources
  3. Une fois vos données prêtes, vous devez identifier votre clé de jointure pour réconcilier vos deux sources de données. La clé de jointure contient une ou plusieurs variables commune aux deux sources. Dans notre cas, la clé de jointure sera l’adresse email (cryptée !) de vos utilisateurs
  4. On réalise ensuite la réconciliation grâce à un pipeline de données contenant un enchaînement d’instruction dans un langage de code précis, souvent le SQL ou le Python
  5. Enfin, on vérifie la bonne qualité des données et on s’assure de la cohérence de la réconciliation des données. 

Grâce à cette réconciliation, vous avez maintenant accès à une table qui vous permet d’avoir une vision complète de votre base utilisateurs. Vous pouvez désormais faire des activations marketing plus poussées, ou connecter votre outil de dashboarding à cette nouvelle table pour réaliser des analyses plus avancées.

Quels outils utiliser pour faire de la data reconciliation facilement ? 

Tout dépend de votre besoin business !

Si vous souhaitez réconcilier plusieurs sources de données pour enrichir vos visualisations et analyses dans votre outil de reporting, et que la réconciliation est relativement simple (peu de variables, données déjà préparées, clé de jointure simple, …), vous pouvez faire votre réconciliation directement dans votre outil de dashboarding. Google Data Studio, Tableau ou encore Power BI vous permettent de réaliser cette réconciliation aisément.

Si vous souhaitez faire de l’activation marketing ou des analyses avancées, le plus efficace est de mettre en place votre datalake et votre pipeline de données dans un environnement Cloud, tel que Google Cloud Platform, Amazon Web Services, ou encore Microsoft Azure. Cela vous permettra de bénéficier de la puissance du cloud pour réaliser vos processings de données souvent très lourds, tout en ayant la possibilité de construire votre code selon vos spécificités et besoins business.

Je construis mon programme sur-mesure

J’ai des fonctions RH ou formation

Je veux former mes équipes !

Je suis reponsable marketing, tech, ou sales

Je veux former mes équipes !

Je suis salarié ou indépendant

Je veux me former moi !