L4 / IC3 · 3 à 5 ans
Préparation entretien Data Engineer, ce qui vous attend
Si vous passez un entretien Data Engineer, attendez-vous à un process chargé en SQL et en system design, avec moins de cadrage produit qu'en Data Science et moins de coding algorithmique qu'en SWE. Les rounds tournent autour de trois choses : une vraie aisance en SQL, le design de pipeline / warehouse, et la maîtrise du stack data moderne (Spark, dbt, Snowflake / BigQuery / Databricks, Airflow / Dagster).
Un process L4 typique ressemble à : pré-screen recruteur, un deep-dive SQL (60 minutes de jointures, window functions, optimisation), un round de coding Python centré sur de la manipulation de données, un design de pipeline / warehouse, puis un round comportemental. Certaines boîtes fusionnent SQL et Python en un seul technical screen. Les scale-ups compressent à 3 ou 4 rounds ; les grands comptes tech et les filiales FAANG en font 5 ou 6. La barre L4, c'est porter un pipeline de bout en bout : ingestion, transformation, monitoring, astreinte.
Version personnalisée
Ce guide couvre la barre générale pour Data Engineer. L'extension Chrome applique la même préparation à chaque offre que vous ouvrez, questions prédites pour cette entreprise précise, entraînement vocal avec votre coach IA sur chaque réponse, benchmark de salaire, analyse des écarts, plus brouillons de lettre de motivation et d'auto-présentation. Premier rapport gratuit ; plans payants à partir de 3,99 $. Ou lancez un scan unique sur une offre, sans installer.
Mise à jour 2026
Ce guide couvre la barre générale pour Data Engineer. Quelques choses ont changé en France en 2026, l'AI Act encadre le recrutement IA à partir du 2 août, 31 % des candidats utilisent déjà l'IA pour préparer (APEC), les mises en situation remplacent les tests classiques, et le cycle de recrutement reste à 12 semaines. Lire ce qui a changé en 2026 →
Ce qui sera attendu de vous
- Construire et maintenir des pipelines depuis les systèmes sources vers le warehouse, généralement en Python ou Scala avec Spark / Airflow / dbt
- Posséder les modèles de données dans le warehouse : design dimensionnel, slowly-changing dimensions, chargements incrémentaux
- Travailler avec les data scientists, les analystes et les équipes produit sur les data contracts et l'instrumentation
- Mettre en place le monitoring et les alertes sur la fraîcheur des données et la qualité
- Participer aux astreintes data ; débuguer un pipeline bloqué ou une métrique aval cassée
- Optimiser les performances des requêtes dans le warehouse : partitionnement, clustering, vues matérialisées
Process d'entretien typique
La plupart des entreprises suivent une trame similaire pour les entretiens Data Engineer. Délai calendaire total : 3 à 5 semaines du pré-screen recruteur jusqu'à l'offre.
Questions types à anticiper
Représentatives de ce que les entreprises demandent à ce niveau, pas une liste exhaustive. Lancez le scan gratuit ci-dessus pour des questions prédites liées à une offre d'emploi précise. L'extension Chrome ajoute l'entraînement vocal avec coaching IA sur chaque réponse (technique, design système, comportemental, motivation).
- “À partir d'une table `transactions` avec user_id, amount et event_timestamp, écrivez une requête qui calcule le chiffre d'affaires glissant sur 30 jours par utilisateur. Puis expliquez comment vous l'optimiseriez pour un milliard de lignes.”
- “Expliquez comment vous concevriez un chargement incrémental depuis un système source qui n'a pas de timestamp updated_at fiable.”
- “Designez une table de dimension client qui supporte les requêtes point-in-time (par ex. "quelle était l'adresse du client le 15/03/2024 ?") sans faire exploser le stockage. Détaillez le schéma et la requête pour un cas d'usage analytics typique.”
- “Designez un pipeline de clickstream de bout en bout, du SDK web jusqu'au warehouse. Couvrez l'ingestion, le schéma, et la gestion des événements en retard.”
- “Designez un pipeline de reporting finance avec un SLA de fraîcheur strict (les données doivent être dans le warehouse dans les 30 minutes après l'événement source). Détaillez ingestion, transformation et monitoring.”
- “Designez un feature pipeline pour une équipe ML qui a besoin de features en batch et en temps réel. Couvrez le stockage, le contrat de cohérence, et comment vous le testeriez.”
- “Parlez-moi d'un pipeline qui a planté en production. Déroulez l'incident, de la détection à la root cause puis au correctif.”
- “Décrivez une fois où un consommateur aval (data science, analytics, finance) a été bloqué par un problème de données dont vous étiez responsable. Comment avez-vous géré ?”
- “Parlez-moi d'une décision de modélisation que vous prendriez différemment aujourd'hui. Qu'est-ce qui vous a fait changer d'avis ?”
Benchmark de salaire
Salaire médian pour Data Engineer dans les grandes boîtes tech US, chiffres principaux en USD. Paris / Berlin / Singapour paient typiquement 30 à 50 % de moins en base ; les ratios d'equity varient selon le stade de l'entreprise.
FAANG L4 Data Engineer : total comp au 50e percentile à 230–300 k$. La grille suit celle du SWE L4 avec une légère décote (5 à 10 %) dans la plupart des boîtes, et équivalente ou supérieure chez les boîtes data-infra (Snowflake, Databricks, Confluent). À Paris, un Data Engineer mid tourne autour de 50–70 k€ de base selon l'employeur (scale-ups comme BlaBlaCar, Back Market ou Dataiku vs grands comptes vs filiales FAANG). Berlin / Stockholm autour de 55–75 k€.
Comment se préparer, cinq conseils tactiques
Ouvrez vos réponses comportementales avec la méthode STAR, Situation, Tâche, Action, Résultat. Les conseils tactiques ci-dessous s'appuient sur cette structure pour ce rôle précis.
- Drillez 60+ questions SQL en ciblant les window functions, les CTE récursives et l'optimisation de requêtes. L'aisance en SQL est la compétence la plus testée à ce niveau
- Maîtrisez un warehouse à froid (Snowflake, BigQuery ou Databricks) : partitionnement, clustering, vues matérialisées, optimisation des coûts. Les rounds sondent souvent le warehouse réellement utilisé par l'équipe
- Lisez les chapitres 1 à 6 de 'Designing Data-Intensive Applications' (Kleppmann), la référence fondatrice pour le round de system design
- Entraînez-vous à dbt ou à la modélisation SQL pour les dimensions de type 1 et type 2, les modèles incrémentaux et les snapshots
- Préparez 5 ou 6 récits STAR avec des chiffres précis : volume du pipeline (lignes / Go / événements par jour), SLA, incidents d'astreinte que vous avez gérés
Les pièges fréquents au niveau Data Engineer
Quelques erreurs fréquentes qui font recaler les candidats Data Engineer même quand ils sont par ailleurs solides. Mieux vaut les repérer en mock interview avant qu'elles n'apparaissent en vrai.
Designer le pipeline sans penser aux événements en retard ou désordonnés.
Pourquoi ça rate
Le system design DE au L4 note votre compréhension du désordre réel des données. Les pipelines ne reçoivent jamais des événements propres et ordonnés depuis la source : il y a des retries, des délais, du décalage d'horloge, du schema drift. Un candidat qui design en supposant des données parfaites donne l'impression d'avoir travaillé côté warehouse mais jamais côté ingestion. L'intervieweur attend que vous posiez la question des arrivées tardives ou que vous mentionniez le windowing.
Comment rattraper
Dans les 5 premières minutes de toute question de pipeline, demandez : avec quel retard les événements peuvent-ils arriver, sont-ils ordonnés, quel est le contrat sur les doublons, que se passe-t-il si le schéma source change. Puis designez autour de la réponse. Une seule question sur les arrivées tardives suffit à montrer que vous avez opéré en production.
Écrire du SQL qui marche mais qui ignore le coût et la performance à l'échelle.
Pourquoi ça rate
Les intervieweurs DE au L4 notent le SQL sur deux axes : justesse et efficacité. Une requête qui joint trois tables sans réfléchir aux clés d'index / partition / clustering donne l'image de quelqu'un qui écrirait des requêtes coûteuses en production. La réponse de niveau senior pense distribution, partition pruning, broadcast joins, matérialisation, même quand la question ne porte que sur la justesse.
Comment rattraper
Après chaque réponse SQL, verbalisez la grille d'optimisation : sur quelles colonnes je partitionnerais, quels index aideraient, quand je matérialiserais plutôt que de requêter à la lecture. Et si la table fait un milliard de lignes, qu'est-ce qui change. Même une phrase sur l'échelle montre que vous pensez au coût.
Parler de pipelines passés sans citer le SLA, le volume, ou ce qui a cassé en production.
Pourquoi ça rate
Les intervieweurs DE calibrent contre l'ownership de vrais pipelines. "J'ai construit un pipeline qui chargeait des données dans le warehouse" ne leur dit rien. "Je possède le pipeline de clickstream à ~200M d'événements/jour avec un SLA de fraîcheur de 15 minutes, on a eu trois dépassements de SLA le trimestre dernier, voici les causes et ce qu'on a changé" leur permet de vous situer tout de suite.
Comment rattraper
Pour chaque pipeline que vous avez porté, attachez trois chiffres : volume (événements / lignes / Go par jour), SLA (fraîcheur en minutes / heures) et fiabilité (incidents par trimestre, temps de détection, temps de rétablissement). Même des chiffres approximatifs ancrent l'histoire dans du réel.
Ressources recommandées
Livres, cours et outils qui reviennent le plus dans la préparation Data Engineer. Sans lien d'affiliation.
- 01Designing Data-Intensive Applications (Kleppmann) →La référence canonique pour le round de system design pipeline / warehouse. Lisez les chapitres 1 à 6 de bout en bout.
- 02Fundamentals of Data Engineering (Reis & Housley) →Le meilleur panorama du métier et du data lifecycle. Idéal pour cadrer le vocabulaire avant les rounds de design.
- 03Documentation dbt →Lisez 'sources', 'models', 'tests' et 'materializations' : c'est la lingua franca du DE moderne, attendue dans les questions de modélisation warehouse.
- 04Documentation Apache Airflow →Le guide des best practices pour l'orchestration. Maîtrisez les DAG, le scheduling et les patterns de backfill avant le round de pipeline.
- 05DataLemur →Practice SQL avec de vrais problèmes d'entretien DE / DS. Concentrez-vous sur les window functions et les CTE.
Scénarios courants
Je suis Data Analyst / BI (Power BI, Looker, beaucoup de SQL) depuis 4 ans et je veux passer Data Engineer. Mon SQL est solide mais je n'ai jamais construit de pipeline en production. Comment je prépare un loop chez Contentsquare, BlaBlaCar ou Dataiku ?
Votre force, le SQL, vous fait passer le round de coding sans souci ; votre angle mort, c'est le system design, parce que les entretiens analytics ne testent jamais le design de pipeline et l'écart se voit tout de suite. Comptez 8 semaines de prep ciblée. Construisez un vrai pipeline de bout en bout sur le stack moderne : ingérez un dataset public (par ex. les données Vélib ou un export GitHub) dans BigQuery ou Snowflake via Airflow ou Dagster, transformez-le avec dbt, et documentez le lineage et les tests. Le but n'est pas un portfolio léché, c'est d'acquérir l'intuition des patterns que les intervieweurs vont sonder : idempotence, backfill, évolution de schéma, événements en retard. Lisez la doc dbt et le guide best practices d'Airflow en entier. Attention au piège franco-français de la confusion Data Engineer / Analytics Engineer : si la fiche de poste parle surtout de dbt et de modélisation warehouse, c'est plutôt de l'Analytics Engineering ; si elle parle d'ingestion, de Spark et de Kafka, c'est du vrai DE. Visez le bon poste. En behavioral, votre histoire est forte : vous avez subi la mauvaise qualité de données côté consommateur pendant des années et vous voulez la corriger en amont.
Je suis en SSII / ESN (Capgemini, Sopra Steria, Devoteam) sur des missions data depuis 5 ans, mais sur des outils qui changent à chaque client et sans jamais avoir possédé un pipeline en propre. Comment je transitionne vers une scale-up produit comme Back Market, ManoMano ou Believe ?
Le piège du parcours ESN en data, c'est que vos missions sont décrites côté client et côté outil, pas côté décision : votre CV liste "Talend, Informatica, Spark, mission BNP" mais personne ne sait ce que vous avez vraiment conçu. Avant les entretiens, ressortez 2 ou 3 vrais projets, même bornés, et écrivez-les comme si vous les pitchiez à un Senior Data Engineer : "j'ai migré un batch nocturne vers un pipeline incrémental, voici les contraintes de fraîcheur, voici les choix de partitionnement, voici le résultat 6 mois après". Si vos missions sont à 60 % du reporting figé, prévoyez 12+ semaines pour remonter le niveau : un projet perso de bout en bout sur le stack moderne (Airflow / dbt / Snowflake), et 60+ questions SQL en ciblant window functions et optimisation. Sur le system design, c'est l'écart le plus visible : drillez un pipeline canonique (clickstream → agrégations → chargements warehouse) en sachant raisonner sur les arrivées tardives et l'idempotence. Ne sous-vendez pas l'expé clients (jonglage parties prenantes, contraintes réglementaires bancaires) ; reformatez-la en "livré sous contrainte" plutôt qu'en conseil.
Je sors d'une formation data (DataScientest, Jedha, Le Wagon Data) et j'ai 18 mois en CDI sur de l'ingestion et du dbt. Mon problème, c'est que je n'ai jamais géré de vrai pipeline en production à l'échelle. Comment je vise un poste chez Criteo ou Datadog ?
Les formations data poussent un super stack moderne (Python, dbt, un peu d'Airflow) sur des projets propres, mais les boîtes comme Criteo ou Datadog testent l'intuition de la production : que se passe-t-il quand le pipeline plante à 3h du matin, comment vous backfillez un mois de données, comment vous gérez un schéma source qui change sans prévenir. Comptez 8 à 10 semaines de prep. Côté SQL, ne sous-estimez pas le round : 60+ questions avec window functions, CTE et optimisation, c'est souvent là que les profils issus de bootcamp trébuchent parce qu'ils ont fait surtout du dbt et peu de SQL brut analytique. Côté system design, lisez les chapitres 1 à 6 de Kleppmann et spécifiez un pipeline de bout en bout avec des décisions explicites sur le watermarking, le replay et le registre de schéma. En behavioral, ne pitchez pas la formation en mode défensif : les recruteurs en ont assez des candidats qui s'excusent de ne pas sortir d'une école d'ingé. Présentez vos 18 mois de CDI comme du vrai code en prod et entrez dans le détail technique des choix que vous avez faits.
J'ai 4 ans sur Apache Spark / Hadoop dans un grand groupe français et la boîte que je vise (une scale-up) est full Snowflake + dbt. Comment je passe l'entretien sans expérience warehouse-native ?
Même métier, dialecte différent, et l'écart est plus petit qu'on ne vous le dira. Le modèle mental de Snowflake est plus proche d'un warehouse traditionnel que Spark ne l'est, donc si vous venez de Hive / Spark vous avez sans doute une compréhension plus profonde du compute distribué que beaucoup de candidats Snowflake-natifs. La friction se voit au round de system design, où la boîte attend que vous raisonniez dans leur idiome : transformations warehouse-first (dbt), micro-partitions et clustering keys, streams and tasks, et le COÛT plutôt que le CPU. Deux semaines de doc Snowflake (focus sur 'performance considerations', 'clustering', 'materialized views', 'streams and tasks') plus un petit projet hands-on couvrent le gap de vocabulaire. En entretien, présentez votre background Spark comme du "compute distribué à l'échelle de la production" et reconnaissez une fois que les idiomes warehouse-natifs sont plus récents pour vous. Ne sur-vendez pas une familiarité Snowflake que vous n'avez pas : les intervieweurs le sentent, et mieux vaut démontrer une montée en compétence rapide qu'une fausse aisance.
Questions fréquentes
Ce guide est-il utile si je viens du SWE, ou si je suis analyste / BI en transition vers la Data Engineering ?
Oui, la barre L4 / IC3 décrite ici s'applique que vous veniez du backend, de l'analytics, ou directement d'un poste DE. Les transitions SWE vers DE ont en général une bonne base de coding mais doivent travailler les window functions SQL et les concepts propres au warehouse (partitionnement, slowly-changing dimensions). Les transitions analyste vers DE ont un SQL solide mais doivent construire l'intuition pipeline / system design. Préparez l'écart qui est réellement votre point faible.
Combien de temps prévoir avant un onsite Data Engineer ?
Le process prend 3 à 5 semaines. Ajoutez 4 à 6 semaines de prep : le drilling SQL et un problème canonique de design de pipeline sont les leviers les plus rentables. Ne sautez pas la doc warehouse spécifique au stack de la boîte (Snowflake / BigQuery / Databricks).
Quelle est l'erreur la plus fréquente des candidats au niveau Data Engineer ?
Sous-investir le system design. Beaucoup de candidats avec un bon SQL se font filtrer parce qu'ils traitent le round de design de pipeline comme une discussion informelle au lieu d'un échange structuré de 60 minutes. Entraînez-vous au cadre de design : ingestion → schéma → transformation → stockage → monitoring, avec des trade-offs explicites à chaque étape.
Et si mon process d'entretien diffère de celui décrit ici ?
L'essentiel de la variation est marginal. Les grandes boîtes tech (FAANG, scale-ups, SaaS mid-size) suivent un process à 1–2 rounds près de ce qui est décrit. Les petites startups tournent souvent sur moins de rounds (3 à 4) mais la barre par round reste similaire ; les boîtes moins matures tech sautent parfois system design ou comportemental. Lisez l'offre et demandez au recruteur lors du pré-screen, il vous dira ce qui vient.
Comment ce guide se compare-t-il au scan gratuit ?
Ce guide couvre la barre générale au niveau L4 / IC3. Le scan gratuit lit votre offre d'emploi spécifique et renvoie les questions prédites pour ce poste + cette entreprise, un benchmark de salaire calibré et (avec votre CV) une analyse des écarts d'expérience et un passage ATS de CV. PDF par e-mail.
Prêt à préparer un vrai poste ?
Collez n'importe quelle offre Data Engineer, découvrez votre coach en moins de 30 secondes.
Déposez une URL LinkedIn, Greenhouse, Lever ou Levels.fyi, ou collez le texte de l'offre. Votre coach prédit les questions pour cette entreprise, fait ressortir vos écarts d'expérience, et calibre un benchmark de salaire pour le poste et la localisation. PDF par e-mail. L'entraînement vocal avec retour IA sur chaque réponse vit dans l'extension Chrome.
Installation libre · Aperçu sur chaque offre · Plans payants à partir de 3,99 $