Recruter un Développeur LLM
Le profil tech profond qui sait fine-tuner un modèle, le quantizer, le servir à 1000 req/s avec vLLM, et arbitrer entre Mistral hosted, Llama self-hosted, ou OpenAI API. Indispensable pour les boîtes qui dépassent le simple API consumer.
Développeur LLM : quand l'API OpenAI ne suffit plus.
Pendant que 90% des entreprises consomment des LLM via API, une fraction grandissante a des raisons valables d'aller plus loin : souveraineté des données, coûts à l'échelle, latence critique, fine-tuning sur domaine spécifique, déploiement on-prem. C'est là qu'intervient le Développeur LLM.
Concrètement : il choisit le bon modèle de base (Mistral, Llama, Qwen, Mixtral) selon le cas d'usage, prépare le dataset de fine-tuning, lance l'entraînement (LoRA / QLoRA / full FT) avec Axolotl ou Unsloth, évalue les sorties, quantize le modèle (AWQ, GPTQ, GGUF), et le déploie en production avec vLLM, TGI ou TensorRT-LLM en optimisant la batching dynamique et le tokens/sec.
Pourquoi c'est rare en PACA : ce profil exige un fond technique pointu (PyTorch, CUDA basics, transformers internals). Beaucoup de Data Scientists s'y autoproclament, peu en ont la pratique. Le marché PACA en compte ~50-100 profils vraiment crédibles.
Les outils que votre Développeur LLM doit maîtriser.
Modèles de base
Fine-tuning
Quantization
Serving & inference
Evaluation & benchmarks
Infra GPU
55-110 k€, premium fort sur expérience training distribué + serving prod.
| Ville | Junior | Confirmé | Senior | Expert / Lead |
|---|---|---|---|---|
| Marseille | 55 – 65 k€ | 65 – 85 k€ | 85 – 105 k€ | 100 – 115 k€ |
| Aix-en-Provence | 52 – 62 k€ | 62 – 82 k€ | 82 – 100 k€ | 98 – 112 k€ |
| Sophia Antipolis | 60 – 70 k€ | 70 – 92 k€ | 92 – 112 k€ | 108 – 125 k€ |
| Nice | 58 – 68 k€ | 68 – 88 k€ | 88 – 108 k€ | 105 – 120 k€ |
5 questions pour qualifier un Développeur LLM.
Ces questions séparent un Développeur LLM mature d'un Data Scientist qui a vu passer LoRA dans un blog post.
Tu dois fine-tuner Mistral 7B sur 50 000 paires question/réponse métier. Comment tu structures le training ?
Décrit : 1) dataset prep (format chat template, déduplication, validation set), 2) choix LoRA vs QLoRA selon GPU (consumer 24 GB → QLoRA), 3) hyperparams initiaux (rank 16-64, alpha 32-128, learning rate 1e-4 à 3e-4), 4) tracking W&B, 5) évaluation (perplexity + benchmark custom + human eval), 6) régularisation contre overfit (early stopping, dropout LoRA). Cite Axolotl ou Unsloth.
'Je lance huggingface trainer avec les paramètres par défaut.' Pas de notion data quality, pas d'éval, overfit garanti.
Tu veux servir Llama 3 70B avec 50 utilisateurs concurrents. Quelle infra et quelle stack ?
Choix : 2x H100 80GB en tensor parallel via vLLM (ou TensorRT-LLM), quantization AWQ 4-bit si latence acceptable, batching dynamique, prefix caching, monitoring tokens/sec + p50/p95/p99, fallback queue si débordement. Sait estimer le throughput théorique (200-400 tokens/s en batch).
'Je host avec Ollama sur une A10.' Impossible (modèle trop gros), aucune notion serving.
Quelle est la différence entre LoRA et QLoRA, et quand tu choisis quoi ?
LoRA = adapters low-rank sur les poids du modèle en FP16/BF16. QLoRA = même chose mais avec base model quantizé en 4-bit (NF4) → divise par 4 la VRAM. QLoRA pour limiter VRAM (1 GPU consumer pour 70B), LoRA si VRAM dispo et qualité maximale. Connaît la perte de qualité résiduelle de QLoRA (faible mais existante).
Ne sait pas répondre ou confond les deux.
Pourquoi AWQ plutôt que GPTQ pour la quantization 4-bit en production ?
AWQ : Activation-aware Weight Quantization. Préserve mieux les poids qui correspondent aux activations importantes → moins de perte de qualité. Bonne intégration vLLM, TGI. GPTQ historiquement plus connu mais souvent battu par AWQ sur benchmarks récents. Sait aussi mentionner GGUF (llama.cpp) pour edge / consumer.
Confond les deux ou ignore les différences techniques.
Tu remarques que ton modèle fine-tuné réussit bien sur le validation set mais hallucine en prod. Hypothèses ?
Liste : 1) overfit sur le validation set (data leakage), 2) distribution shift production vs training, 3) absence d'instructions / few-shot en prod alors que le training les avait, 4) chat template différent, 5) température inference trop élevée, 6) catastrophic forgetting (le modèle a perdu son comportement de base). Sait débugger méthodiquement.
'On rajoute des exemples au prompt.' Pas de méthodo d'investigation.
Tableau global des salaires IA en PACA.
| Métier | Junior (0-2 ans) | Confirmé (3-7 ans) | Senior (8+ ans) | Expert / Lead | Note |
|---|---|---|---|---|---|
| AI Engineer | 45 – 55 k€ | 55 – 75 k€ | 75 – 105 k€ | 100 – 140 k€ | Demande forte en RAG/agents. |
| Machine Learning Engineer | 42 – 52 k€ | 52 – 72 k€ | 72 – 100 k€ | 95 – 130 k€ | Profil rare avec exp. prod MLOps. |
| MLOps Engineer | 45 – 55 k€ | 55 – 78 k€ | 78 – 110 k€ | — | Marché tendu, prime à l'infra GPU. |
| Data Scientist | 38 – 48 k€ | 48 – 65 k€ | 65 – 90 k€ | 85 – 120 k€ | Volume important, écart selon stack. |
| Data Engineer | 40 – 50 k€ | 50 – 70 k€ | 70 – 95 k€ | — | Indispensable pour alimenter les modèles. |
| AI Automation Specialist | 38 – 48 k€ | 48 – 65 k€ | 65 – 85 k€ | — | n8n / Make / Zapier + LLM, croissance forte. |
| Prompt Engineer | 40 – 50 k€ | 50 – 68 k€ | 68 – 90 k€ | — | Souvent confondu avec AI Engineer. À cadrer. |
| AI Product Manager | 50 – 62 k€ | 62 – 85 k€ | 85 – 120 k€ | — | Mix produit + tech, profils rares. |
| Architecte IA | — | 70 – 95 k€ | 95 – 130 k€ | 125 – 160 k€ | Sénior obligatoire, vision système. |
| Consultant IA | 40 – 55 k€ | 55 – 80 k€ | 80 – 120 k€ | — | Forte variance selon BU/cabinet. |
| Agentic AI Engineer | 50 – 62 k€ | 62 – 90 k€ | 90 – 130 k€ | — | Émergent. Premium parce que peu de profils. |
Vous cherchez un Développeur LLM en PACA ?
Profil rare et chassé par les corporates de Sophia. Notre court-list cible 3-5 candidats avec expérience prod en 25-35 jours.
