Data Engineering & Architecture

Selon Andy

Data Engineering

Phenix

Quel est le rôle du Data Engineer ? 

Le rôle d’un Data Engineer, comme Andy, est de concevoir et construire toute l’architecture de données d’une entreprise, à partir de zéro. Il est responsable de transformer les données brutes en données actionnables par les autres équipes de l’entreprise (Marketing, Operations, Sales, Data science …).Ces données, une fois importées via un processus ETL, sont alors mises à disposition dans des bases de données exploitables (appelées plus communément Datalakes).

Qu’appelle t-on le processus ETL ? 

Le processus ETL, ou Extract Transform Load est un enchaînement de tâches informatiques permettant de récupérer (extract) des données brutes de plusieurs data sources, avant de pouvoir les modifier (transform) selon des règles business bien définies et les stocker (load) vers une base de données dans un format directement exploitable par les différents départements d’une entreprise.

L’architecture des bases de données

Il existe deux formats de données, structurées et non-structurées :

  • Les données structurées sont organisées selon un référentiel formaté et souvent stockées dans une base de données relationnelle.
  • Au contraire, les données non-structurées sont celles facilement exploitables par l’humain, comme des photos ou des vidéos. 

Structurées

Non Structurées

Quels sont les usages des bases de données ? 

Une base de données est un ensemble structuré de données enregistrées sur des supports accessibles par l’ordinateur, représentant des informations du monde réel et pouvant être interrogées et mises à jour par une communauté d’utilisateurs.

Il existe différents modèles de base de données:

  • Modèle hiérarchique : chaque enregistrement dépendait dЀun seul enregistrement(structure d’arbre)
  • Modèle réseau : chaque enregistrement dépend d’un ou plusieurs autres (structure réseau)
  • Modèle relationnel : les enregistrements sont organisés en tables
  • Modèle objet : NoSQL, clé/valeur

Les plus communes en data marketing sont les bases de données relationnelles. Elles sont organisées en ligne (enregistrement) et en colonne (attribut). Reliées par des clés, les différentes tables ont plusieurs usages :

  • Base de données transactionnelle ou Online Transaction Processing (OLTP) : Elle administre les transactions quotidiennes d’une organisation dédiée à la production. Ex : La base de donnée d’Orange qui contient l’ensemble des informations des transactions bancaires

Base de données analytique ou Online Analytical Processing (OLAP) : Elle permet les analyses de données pour aider aux décisions du business. Ex : La base de données des campagnes marketing d’Orange, avec les différents canaux de distribution ainsi que les performances de ces campagnes.

Comment gérer sa base de données ? 

La gestion et l’accès à une base de données sont assurés par un ensemble de programmes qui constituent le Système de gestion de base de données (SGBD). Un SGBD doit permettre l’ajout, la modification et la recherche de données. 

Parmi les SGBD traditionnels figurent : MySQL, Microsoft SQL Server, PostgreSQL et Oracle Database. Ils ont l’avantage d’être très puissants pour traiter des volumes de données en production (bases de données transactionnelles) mais sont souvent rapidement limités quant aux formats de données qu’il est possible de stocker.

Les nouveaux acteurs les plus connus, plus orientés Big Data (bases de données analytiques), sont Google BigQuery, Amazon Redshift, Microsoft Azure SQL DB. Au-delà de pouvoir traiter de très gros volumes de données, ces outils bénéficient de la puissance et de l’agilité des solutions Cloud dans lesquelles ils sont intégrés.

Les sujets associés à cette thématique :

Je construis mon programme sur-mesure

J’ai des fonctions RH ou formation

Je veux former mes équipes !

Je suis reponsable marketing, tech, ou sales

Je veux former mes équipes !

Je suis salarié ou indépendant

Je veux me former moi !