Métier IA · PACA

Recruter un Développeur LLM

Le profil tech profond qui sait fine-tuner un modèle, le quantizer, le servir à 1000 req/s avec vLLM, et arbitrer entre Mistral hosted, Llama self-hosted, ou OpenAI API. Indispensable pour les boîtes qui dépassent le simple API consumer.

Notre terrainFine-tuningQuantizationvLLM / TGIGPU optimization
Le métier — sans bullshit

Développeur LLM : quand l'API OpenAI ne suffit plus.

Pendant que 90% des entreprises consomment des LLM via API, une fraction grandissante a des raisons valables d'aller plus loin : souveraineté des données, coûts à l'échelle, latence critique, fine-tuning sur domaine spécifique, déploiement on-prem. C'est là qu'intervient le Développeur LLM.

Concrètement : il choisit le bon modèle de base (Mistral, Llama, Qwen, Mixtral) selon le cas d'usage, prépare le dataset de fine-tuning, lance l'entraînement (LoRA / QLoRA / full FT) avec Axolotl ou Unsloth, évalue les sorties, quantize le modèle (AWQ, GPTQ, GGUF), et le déploie en production avec vLLM, TGI ou TensorRT-LLM en optimisant la batching dynamique et le tokens/sec.

Pourquoi c'est rare en PACA : ce profil exige un fond technique pointu (PyTorch, CUDA basics, transformers internals). Beaucoup de Data Scientists s'y autoproclament, peu en ont la pratique. Le marché PACA en compte ~50-100 profils vraiment crédibles.

Stack technique 2026

Les outils que votre Développeur LLM doit maîtriser.

Modèles de base

Mistral / MixtralLlama 3 / 4QwenDeepSeekPhiGemma

Fine-tuning

Hugging Face TransformersPEFT (LoRA, QLoRA)AxolotlUnslothTRLDeepSpeedFSDP

Quantization

AWQGPTQGGUF (llama.cpp)bitsandbytesAutoAWQ

Serving & inference

vLLMTGI (Hugging Face)TensorRT-LLMllama.cppOllamaSGLang

Evaluation & benchmarks

lm-evaluation-harnessMT-BenchAlpacaEvaldatasets customhuman eval

Infra GPU

H100 / A100 / L40SNVIDIA NCCLCUDA basicsmulti-GPU trainingdistributed inference
Salaires en PACA — mars 2026

55-110 k€, premium fort sur expérience training distribué + serving prod.

VilleJuniorConfirméSeniorExpert / Lead
Marseille55 – 65 k€65 – 85 k€85 – 105 k€100 – 115 k€
Aix-en-Provence52 – 62 k€62 – 82 k€82 – 100 k€98 – 112 k€
Sophia Antipolis60 – 70 k€70 – 92 k€92 – 112 k€108 – 125 k€
Nice58 – 68 k€68 – 88 k€88 – 108 k€105 – 120 k€
Détecter les bons profils

5 questions pour qualifier un Développeur LLM.

Ces questions séparent un Développeur LLM mature d'un Data Scientist qui a vu passer LoRA dans un blog post.

1

Tu dois fine-tuner Mistral 7B sur 50 000 paires question/réponse métier. Comment tu structures le training ?

Bon signe

Décrit : 1) dataset prep (format chat template, déduplication, validation set), 2) choix LoRA vs QLoRA selon GPU (consumer 24 GB → QLoRA), 3) hyperparams initiaux (rank 16-64, alpha 32-128, learning rate 1e-4 à 3e-4), 4) tracking W&B, 5) évaluation (perplexity + benchmark custom + human eval), 6) régularisation contre overfit (early stopping, dropout LoRA). Cite Axolotl ou Unsloth.

Drapeau rouge

'Je lance huggingface trainer avec les paramètres par défaut.' Pas de notion data quality, pas d'éval, overfit garanti.

2

Tu veux servir Llama 3 70B avec 50 utilisateurs concurrents. Quelle infra et quelle stack ?

Bon signe

Choix : 2x H100 80GB en tensor parallel via vLLM (ou TensorRT-LLM), quantization AWQ 4-bit si latence acceptable, batching dynamique, prefix caching, monitoring tokens/sec + p50/p95/p99, fallback queue si débordement. Sait estimer le throughput théorique (200-400 tokens/s en batch).

Drapeau rouge

'Je host avec Ollama sur une A10.' Impossible (modèle trop gros), aucune notion serving.

3

Quelle est la différence entre LoRA et QLoRA, et quand tu choisis quoi ?

Bon signe

LoRA = adapters low-rank sur les poids du modèle en FP16/BF16. QLoRA = même chose mais avec base model quantizé en 4-bit (NF4) → divise par 4 la VRAM. QLoRA pour limiter VRAM (1 GPU consumer pour 70B), LoRA si VRAM dispo et qualité maximale. Connaît la perte de qualité résiduelle de QLoRA (faible mais existante).

Drapeau rouge

Ne sait pas répondre ou confond les deux.

4

Pourquoi AWQ plutôt que GPTQ pour la quantization 4-bit en production ?

Bon signe

AWQ : Activation-aware Weight Quantization. Préserve mieux les poids qui correspondent aux activations importantes → moins de perte de qualité. Bonne intégration vLLM, TGI. GPTQ historiquement plus connu mais souvent battu par AWQ sur benchmarks récents. Sait aussi mentionner GGUF (llama.cpp) pour edge / consumer.

Drapeau rouge

Confond les deux ou ignore les différences techniques.

5

Tu remarques que ton modèle fine-tuné réussit bien sur le validation set mais hallucine en prod. Hypothèses ?

Bon signe

Liste : 1) overfit sur le validation set (data leakage), 2) distribution shift production vs training, 3) absence d'instructions / few-shot en prod alors que le training les avait, 4) chat template différent, 5) température inference trop élevée, 6) catastrophic forgetting (le modèle a perdu son comportement de base). Sait débugger méthodiquement.

Drapeau rouge

'On rajoute des exemples au prompt.' Pas de méthodo d'investigation.

Comparer avec les autres métiers IA en PACA

Tableau global des salaires IA en PACA.

MétierJunior (0-2 ans)Confirmé (3-7 ans)Senior (8+ ans)Expert / LeadNote
AI Engineer45 – 55 k€55 – 75 k€75 – 105 k€100 – 140 k€Demande forte en RAG/agents.
Machine Learning Engineer42 – 52 k€52 – 72 k€72 – 100 k€95 – 130 k€Profil rare avec exp. prod MLOps.
MLOps Engineer45 – 55 k€55 – 78 k€78 – 110 k€Marché tendu, prime à l'infra GPU.
Data Scientist38 – 48 k€48 – 65 k€65 – 90 k€85 – 120 k€Volume important, écart selon stack.
Data Engineer40 – 50 k€50 – 70 k€70 – 95 k€Indispensable pour alimenter les modèles.
AI Automation Specialist38 – 48 k€48 – 65 k€65 – 85 k€n8n / Make / Zapier + LLM, croissance forte.
Prompt Engineer40 – 50 k€50 – 68 k€68 – 90 k€Souvent confondu avec AI Engineer. À cadrer.
AI Product Manager50 – 62 k€62 – 85 k€85 – 120 k€Mix produit + tech, profils rares.
Architecte IA70 – 95 k€95 – 130 k€125 – 160 k€Sénior obligatoire, vision système.
Consultant IA40 – 55 k€55 – 80 k€80 – 120 k€Forte variance selon BU/cabinet.
Agentic AI Engineer50 – 62 k€62 – 90 k€90 – 130 k€Émergent. Premium parce que peu de profils.
Source : compilation Recruteurs.io · Hellowork · Glassdoor · Factoriel · JeDha · Indeed · observations terrain (mars 2026). Région PACA : ajustement -10 à -20% vs Paris, +5% sur Sophia Antipolis (tension forte).

Vous cherchez un Développeur LLM en PACA ?

Profil rare et chassé par les corporates de Sophia. Notre court-list cible 3-5 candidats avec expérience prod en 25-35 jours.