Recruter un Data Scientist
Le métier le plus demandé, le plus vaste, le plus mal défini. Un bon Data Scientist combine 3 choses qu'on trouve rarement ensemble : rigueur statistique, capacité à comprendre un problème business, et discipline pour produire des résultats actionnables. Le reste sont des consultants Excel.
Un Data Scientist en 2026, c'est quoi vraiment ?
Le Data Scientist transforme un problème business flou en question quantifiable, conçoit la méthodologie d'analyse adéquate, modélise (de la simple régression à un LLM fine-tuné selon le besoin), et — surtout — restitue de façon qu'une décision business puisse en sortir.
Sur une journée type : il alterne entre SQL pour explorer la donnée, Python / R pour modéliser, échanges avec les équipes métier pour valider l'orientation, et restitution (notebook, dashboard, rapport). Un Data Scientist Senior anime aussi l'agenda data de son équipe : quel problème vaut le coup d'être modélisé, quel modèle déjà existant peut être réutilisé.
Le piège du marché : le titre "Data Scientist" recouvre 4 réalités très différentes : (1) statisticien rigoureux, (2) ML practitioner qui shippe en prod, (3) analyste SQL/BI rebadgé, (4) chercheur académique en transition. Avant de recruter, il faut savoir lequel des quatre on cherche — c'est ce qu'on cadre en brief.
Quel Data Scientist vous voulez vraiment ?
Avant de publier votre offre, identifiez clairement à laquelle de ces 4 catégories vous voulez accéder. Une fausse réponse, et vous perdez 2 mois à recruter le mauvais profil.
Statisticien / Causal
Master stats, expérience inference causale, A/B testing, modèles d'attribution. Indispensable en marketing data, FinTech, MedTech, économétrie. Salaire confirmé : 55-80 k€.
ML Practitioner production-ready
Sait shipper un modèle qui tourne. Stack scikit-learn / XGBoost / Spark ML + Docker + MLflow basique. Bon pour scale-ups et corporates qui veulent du ML qui dure. Salaire confirmé : 50-75 k€.
Analyst SQL/BI rebadgé
Excellent en data prep, SQL, dashboards. Moins de modélisation, mais grande valeur business. Souvent confondu avec un vrai DS — à ce poste préfère Analytics Engineer ou Senior Data Analyst pour clarifier.
Chercheur académique en transition
Sortie PhD, fort en théorie, modèles avancés (deep learning, bayesien, time series). Atout : capacité à innover. Risque : sur-engineering, peu d'expérience production. À encadrer.
Les outils qu'un Data Scientist confirmé maîtrise.
Langages & analyse
Modélisation
Expérimentation & A/B
Restitution & dataviz
Data warehouse / lakehouse
MLOps lite
38-90 k€, fortes variations selon le type de poste.
Le marché Data Scientist en PACA est plus liquide que celui de l'AI Engineer ou du MLOps. Variations fortes selon le secteur (FinTech / santé +10-15%, public -10-15%) et la séniorité.
| Ville | Junior | Confirmé | Senior | Expert / Lead |
|---|---|---|---|---|
| Marseille | 38 – 48 k€ | 48 – 65 k€ | 65 – 88 k€ | 85 – 115 k€ |
| Aix-en-Provence | 37 – 47 k€ | 47 – 63 k€ | 63 – 85 k€ | 82 – 110 k€ |
| Sophia Antipolis | 42 – 52 k€ | 52 – 70 k€ | 70 – 95 k€ | 90 – 120 k€ |
| Nice | 40 – 50 k€ | 50 – 68 k€ | 68 – 92 k€ | 88 – 118 k€ |
5 questions pour qualifier un Data Scientist.
Ces questions ne sont pas des "leetcode". Elles révèlent l'expérience réelle vs les certificats LinkedIn.
Tu as une nouvelle hypothèse : la version B d'une landing page convertit mieux. Comment tu la valides ?
Définit objectif business, métrique primaire vs secondaire, puissance statistique, MDE (minimum detectable effect), durée du test, randomisation par user/session, contrôle des effets confondants. Connaît CUPED ou stratification pour réduire la variance. Sait quand un test est concluant et quand il ne l'est pas.
'On lance le test, on regarde dans 7 jours qui a gagné'. Pas de notion de puissance, pas de MDE, peek à mi-parcours, conclusions sur p-value < 0.05 sans correction.
On te demande de faire un modèle de churn. Quelle est ta première étape ?
Commence par cadrer le problème : qu'est-ce qu'un 'churn' (définition opérationnelle), quelle fenêtre de prédiction, quelle action déclenchée (campagne, offre commerciale). Vérifie la qualité des données, le déséquilibre de classes, le coût des erreurs. Modèle vient en 3e ou 4e position.
'Je prends scikit-learn et je teste RandomForest, XGBoost, LightGBM, je compare les AUC'. Aucune réflexion sur la définition, l'usage final, le coût des erreurs.
Tu présentes les résultats d'un modèle à des stakeholders non-techniques. Comment tu structures la restitution ?
Démarre par le contexte business + la décision attendue. Une slide / un dashboard simple. Métriques cadrées en valeur métier (coût économisé, % conversion gagnée), pas en F1. Limites du modèle expliquées clairement. Prévoit une discussion sur le go/no-go production.
Présente d'abord l'algorithme et les courbes ROC. Tunnel : 30 slides techniques. Ne sait pas répondre à 'et alors, qu'est-ce qu'on fait ?'.
Donne-moi un exemple de modèle que tu as construit et qui n'est pas passé en prod. Pourquoi ?
Cite un cas concret, et identifie clairement la cause : pas assez de gain métier, intégration trop coûteuse, problème de fairness/explicabilité, données pas dispo en réel, organisationnel. Tire des leçons.
'Tous mes modèles vont en prod' (peu probable). Ou 'jamais essayé, je faisais des POC'. Indique soit du déni soit pas d'expérience prod.
Tu vois p-value = 0.04. Tu conclus quoi ?
Rappelle que p-value 0.04 = sous H0, on aurait 4% de chances d'observer ce résultat ou plus extrême. NE conclut PAS automatiquement 'effet significatif et donc on déploie'. Demande la taille d'effet, l'intervalle de confiance, la puissance, le nombre de tests faits (multiple comparisons). Connaît la critique p-hacking.
'C'est significatif, donc on déploie B'. Pas de notion de taille d'effet, pas de notion de puissance, croit qu'on a 96% de chances que H1 soit vraie.
Tableau des salaires IA en PACA.
| Métier | Junior (0-2 ans) | Confirmé (3-7 ans) | Senior (8+ ans) | Expert / Lead | Note |
|---|---|---|---|---|---|
| AI Engineer | 45 – 55 k€ | 55 – 75 k€ | 75 – 105 k€ | 100 – 140 k€ | Demande forte en RAG/agents. |
| Machine Learning Engineer | 42 – 52 k€ | 52 – 72 k€ | 72 – 100 k€ | 95 – 130 k€ | Profil rare avec exp. prod MLOps. |
| MLOps Engineer | 45 – 55 k€ | 55 – 78 k€ | 78 – 110 k€ | — | Marché tendu, prime à l'infra GPU. |
| Data Scientist | 38 – 48 k€ | 48 – 65 k€ | 65 – 90 k€ | 85 – 120 k€ | Volume important, écart selon stack. |
| Data Engineer | 40 – 50 k€ | 50 – 70 k€ | 70 – 95 k€ | — | Indispensable pour alimenter les modèles. |
| AI Automation Specialist | 38 – 48 k€ | 48 – 65 k€ | 65 – 85 k€ | — | n8n / Make / Zapier + LLM, croissance forte. |
| Prompt Engineer | 40 – 50 k€ | 50 – 68 k€ | 68 – 90 k€ | — | Souvent confondu avec AI Engineer. À cadrer. |
| AI Product Manager | 50 – 62 k€ | 62 – 85 k€ | 85 – 120 k€ | — | Mix produit + tech, profils rares. |
| Architecte IA | — | 70 – 95 k€ | 95 – 130 k€ | 125 – 160 k€ | Sénior obligatoire, vision système. |
| Consultant IA | 40 – 55 k€ | 55 – 80 k€ | 80 – 120 k€ | — | Forte variance selon BU/cabinet. |
| Agentic AI Engineer | 50 – 62 k€ | 62 – 90 k€ | 90 – 130 k€ | — | Émergent. Premium parce que peu de profils. |
Vous cherchez un Data Scientist en PACA ?
Notre brief commence par identifier lequel des 4 types de Data Scientist vous voulez. Court-list 5-7 candidats qualifiés en 15-20 jours.
