Recruter un Data Engineer IA
Pas un Data Scientist qui ferait des pipelines. Pas un Backend Engineer qui aurait vu Airflow. Un ingénieur dont le métier est de livrer des données fraîches, fiables, lineagées, prêtes à être consommées par vos modèles ML et systèmes RAG.
Sans Data Engineer IA, vos modèles meurent en silence.
Le Data Engineer IA est le maillon le plus sous-estimé d'une équipe IA. Quand il est absent, vos modèles s'entraînent sur des données pourries, vos RAG indexent des documents obsolètes, vos pipelines tournent en silence sans alerte quand un fichier source change de schéma.
Concrètement : il modélise vos données dans le warehouse (dbt + couche sémantique), automatise l'ingestion depuis vos systèmes (CDC, batch, streaming), instrumente la qualité (Great Expectations, Soda, dbt tests), gère le lineage (OpenLineage, dbt docs), et — spécificité IA — sait construire les pipelines de chunking + embeddings pour vos RAG.
Différence avec un Data Engineer classique : compréhension de ce que les modèles attendent en input. Un Data Engineer pur ne pense pas naturellement à la temporalité, au leakage, à la fenêtre de prédiction. Un Data Engineer IA si.
Les outils que votre Data Engineer IA doit maîtriser.
Warehouse / lakehouse
Transformation & modélisation
Orchestration
Streaming & ingestion
Qualité & observabilité
Vector & embeddings (spécifique IA)
50-95 k€, premium sur expérience streaming + vector ingestion mature.
| Ville | Junior | Confirmé | Senior | Expert / Lead |
|---|---|---|---|---|
| Marseille | 50 – 58 k€ | 58 – 75 k€ | 75 – 92 k€ | — |
| Aix-en-Provence | 48 – 56 k€ | 56 – 72 k€ | 72 – 90 k€ | — |
| Sophia Antipolis | 52 – 62 k€ | 62 – 80 k€ | 80 – 98 k€ | — |
| Nice | 50 – 58 k€ | 58 – 75 k€ | 75 – 92 k€ | — |
5 questions pour qualifier un Data Engineer IA.
Ces questions séparent un Data Engineer IA mature d'un Data Engineer généraliste qui n'a jamais travaillé avec des Data Scientists exigeants.
Tu dois alimenter un RAG sur 10 000 contrats PDF qui sont mis à jour quotidiennement. Quel pipeline tu mets en place ?
Décrit : 1) source (S3 + listing CDC ou notification webhook), 2) extraction texte (Apryse, Unstructured, Marker), 3) chunking adapté (par section, par paragraphe selon document), 4) embeddings (modèle + version trackés), 5) upsert dans vector DB avec metadata (ACL, version document), 6) gestion des suppressions, 7) backfill + incrémental, 8) monitoring qualité.
'On extrait le texte, on chunke à 1000 tokens, on push dans Pinecone.' Pas de notion CDC, pas de gestion des updates/deletes, pas de monitoring.
Ton modèle de churn est en prod et ses prédictions deviennent moins fiables. Qu'est-ce qui peut clocher côté data ?
Pense : drift des features (distribution change), changement schéma source (colonne ajoutée/retirée), data freshness (pipeline en retard), data quality (valeurs nulles inhabituelles, déduplications), leakage post-déploiement, fenêtre de calcul des features qui dérive. Sait instrumenter ça.
'C'est le modèle qui dérive, faut le réentraîner.' Pas de notion d'investigation data en amont.
Quelle est la différence entre incremental vs full refresh dans dbt, et quand tu choisis quoi ?
Incremental = ajout / update sur les nouvelles lignes, plus rapide, plus économique, mais nécessite une stratégie de unique key + filtre sur is_incremental(). Full refresh = recalcul complet, plus simple, idéal pour les petits volumes ou les transformations qui changent souvent. Sait expliquer les pièges (late arriving data, backfill).
Ne connaît pas le concept ou ne sait pas expliquer les trade-offs.
Comment tu gères les data contracts entre les producteurs (back-end apps) et les consommateurs (Data Science) ?
Connaît le concept : schéma versionné, ownership clair, validation (Great Expectations / dbt tests / Schema Registry pour Kafka), monitoring breaking changes. Cite des outils ou pratiques (Soda, Bigeye, dbt contracts, JSON Schema, Avro). Tient compte de la dimension organisationnelle.
'Quand ça casse, on se prévient en Slack.' Pas de process, dette permanente.
Tu hérites d'un Airflow avec 200 DAGs, certains qui plantent depuis des semaines sans que personne ne s'en rende compte. Tu fais quoi ?
Méthodique : 1) audit complet (DAGs actifs / inactifs / plantés / valeur business), 2) classification (critiques / secondaires / dépréciés), 3) ménage progressif (suppression, archivage), 4) ownership clair (un DAG = une équipe), 5) monitoring + alerting Slack/PagerDuty sur DAGs critiques, 6) review process pour les nouveaux DAGs.
'On relance ceux qui plantent.' Pas de stratégie, dette ressurgit.
Tableau global des salaires IA en PACA.
| Métier | Junior (0-2 ans) | Confirmé (3-7 ans) | Senior (8+ ans) | Expert / Lead | Note |
|---|---|---|---|---|---|
| AI Engineer | 45 – 55 k€ | 55 – 75 k€ | 75 – 105 k€ | 100 – 140 k€ | Demande forte en RAG/agents. |
| Machine Learning Engineer | 42 – 52 k€ | 52 – 72 k€ | 72 – 100 k€ | 95 – 130 k€ | Profil rare avec exp. prod MLOps. |
| MLOps Engineer | 45 – 55 k€ | 55 – 78 k€ | 78 – 110 k€ | — | Marché tendu, prime à l'infra GPU. |
| Data Scientist | 38 – 48 k€ | 48 – 65 k€ | 65 – 90 k€ | 85 – 120 k€ | Volume important, écart selon stack. |
| Data Engineer | 40 – 50 k€ | 50 – 70 k€ | 70 – 95 k€ | — | Indispensable pour alimenter les modèles. |
| AI Automation Specialist | 38 – 48 k€ | 48 – 65 k€ | 65 – 85 k€ | — | n8n / Make / Zapier + LLM, croissance forte. |
| Prompt Engineer | 40 – 50 k€ | 50 – 68 k€ | 68 – 90 k€ | — | Souvent confondu avec AI Engineer. À cadrer. |
| AI Product Manager | 50 – 62 k€ | 62 – 85 k€ | 85 – 120 k€ | — | Mix produit + tech, profils rares. |
| Architecte IA | — | 70 – 95 k€ | 95 – 130 k€ | 125 – 160 k€ | Sénior obligatoire, vision système. |
| Consultant IA | 40 – 55 k€ | 55 – 80 k€ | 80 – 120 k€ | — | Forte variance selon BU/cabinet. |
| Agentic AI Engineer | 50 – 62 k€ | 62 – 90 k€ | 90 – 130 k€ | — | Émergent. Premium parce que peu de profils. |
Vous cherchez un Data Engineer IA en PACA ?
Profil souvent confondu avec un Data Engineer classique. Notre court-list filtre sur la maturité IA et l'expérience vector ingestion. 4-6 candidats en 15-25 jours.
