ooligo
claude-skill

Benchmark de rémunération avec Claude

Difficulty
intermédiaire
Setup time
30min
For
recruiter · compensation-analyst · hiring-manager
Recruiting & TA

Stack

Un Claude Skill qui prend le niveau d’un poste, sa localisation géographique, et un export d’enquête de rémunération (Radford, Pave, Carta), et produit une recommandation de fourchette salariale structurée par composante (salaire de base, equity, bonus / OTE) avec le percentile nommé, la citation de l’enquête source, et les notes de calibration que le recruteur apporte à l’appel d’offre. Il remplace la jonglerie de feuilles de calcul et d’onglets ouverts par un document unique que le hiring manager et l’approbateur finance peuvent valider. Publie la fourchette publique (conforme NYC LL 32-A, CO/CA/WA pay-transparency) comme sortie distincte.

Quand utiliser

  • Vous publiez un nouveau poste et avez besoin d’une fourchette publique défendable (pas le vague « standard du marché », pas « 75e percentile » sans nommer l’enquête ni la géographie).
  • Vous préparez une offre et avez besoin de la fourchette que le hiring manager peut approuver sans une demi-journée d’aller-retour avec finance.
  • Vous auditez les fourchettes salariales existantes chaque trimestre et souhaitez une comparaison structurée de « ce que nous payons » vs. « ce que dit l’enquête » par famille de postes.

Quand NE PAS utiliser

  • Décisions salariales unilatérales en dehors d’une chaîne d’approbation validée. Le skill produit une recommandation. La philosophie de rémunération et la matrice d’approbation appartiennent aux RH / Finance / Comité de rémunération. Le skill les informe ; il ne les remplace pas.
  • Rémunération en equity pour les startups pré-Série B. Le benchmark equity à un stade très précoce dépend davantage de la cap table spécifique et du chemin de dilution que des données de marché. Les chiffres des enquêtes ne s’y appliquent pas.
  • Génération de scripts de négociation. Le skill produit une fourchette ; il ne rédige pas de langage de négociation. Un langage de négociation salariale auto-généré sonne froid et nuit à l’expérience candidat.
  • Décisions d’exception spécifiques à un candidat. « Peut-on offrir 15 % au-dessus de la fourchette pour ce candidat ? » est une question pour le hiring manager et la finance, pas pour le skill. Le skill informe en remontant la fourchette ; il n’approuve pas les exceptions.
  • Géographies où l’enquête a peu de données. Les enquêtes couvrent bien les États-Unis, l’UE et les principaux marchés APAC ; les données des marchés émergents (LatAm, Afrique, APAC secondaire) sont plus limitées. Le skill signale les géographies à faible effectif dans la sortie.

Configuration

  1. Déposer le bundle. Placez apps/web/public/artifacts/compensation-benchmark-skill/SKILL.md dans votre répertoire de skills Claude Code.
  2. Configurer la source d’enquête. Le skill lit les exports de Radford, Pave, Carta, ou un CSV personnalisé. Le schéma par source vit dans references/1-survey-source-schemas.md. Le skill n’appelle pas directement les API d’enquête — les exports passent par le chemin d’accès approuvé de votre analyste en rémunération.
  3. Définir la philosophie de rémunération de l’entreprise. À quel percentile l’entreprise se positionne-t-elle (50e, 60e, 75e) ? Le salaire de base + equity vise-t-il un percentile cible, ou chaque composante est-elle calibrée séparément ? La philosophie vit dans references/2-comp-philosophy-template.md et constitue l’entrée contre laquelle le skill se calibre.
  4. Configurer la sortie de la chaîne d’approbation. Le skill émet la fourchette publique comme sortie distincte (conforme NYC LL 32-A, CO/CA/WA pay-transparency). Connectez cette sortie à votre étape de publication d’offre d’emploi (description de poste Greenhouse / Ashby), ou copiez manuellement, selon le processus de votre équipe.
  5. Exécution à blanc sur une offre clôturée. Benchmarkez un poste clôturé le trimestre dernier. Comparez la fourchette du skill avec l’offre réellement faite. Si l’écart est important, soit l’export d’enquête est hors cycle, soit le fichier de philosophie de l’entreprise ne correspond pas à la façon dont les offres sont réellement approuvées.

Ce que le skill fait réellement

Cinq étapes. L’ordre maintient les recherches d’enquête déterministes avant la calibration pilotée par le LLM, car laisser le modèle paraphraser les chiffres d’enquête introduit une dérive que le recruteur ne peut pas auditer.

  1. Valider la définition du rôle. Vérifier que le niveau, la géographie et la fonction du rôle sont présents et correspondent aux valeurs dans l’export d’enquête. Arrêt sur les champs manquants ou ambigus (« Senior Engineer » sans niveau sur l’échelle de l’entreprise est ambigu).
  2. Rechercher les percentiles d’enquête. Recherche déterministe, pas LLM. Pour chacun des salaires de base, equity (annualisé), et bonus / OTE, extraire les percentiles 25e / 50e / 60e / 75e / 90e de l’export d’enquête pour la cellule (niveau, géographie, fonction) correspondante. Si la cellule a moins que le seuil de taille d’échantillon documenté de l’enquête (varie par enquête : Radford typiquement 5+, Pave typiquement 10+), signaler faible-N et refuser de recommander une fourchette basée sur les percentiles — se replier sur une cellule plus large (niveau, fonction) sans géographie ou sur une géographie élargie (ex. « États-Unis entiers » plutôt que « Bay Area »).
  3. Calibrer contre la philosophie de l’entreprise. Lire la philosophie de rémunération. Appliquer le percentile cible aux chiffres de l’enquête. La sortie est une fourchette structurée par composante :
    • Salaire de base : target_pct de l’enquête, avec une plage de ±10 % pour absorber la variation au niveau du candidat.
    • Equity : idem ; convertir en valeur dollar au prix d’exercice de l’entreprise pour les nouvelles attributions, documenter le calcul.
    • Bonus / OTE : target_pct sur l’OTE ; diviser base/variable selon le ratio de l’entreprise pour la fonction.
  4. Composer la fourchette publique. Conformément aux exigences de transparence salariale NYC LL 32-A et CO/CA/WA, la publication publique nécessite une fourchette de salaire de base. Par défaut : « minimum du bord inférieur de la fourchette au maximum du bord supérieur, exprimé comme fourchette salariale unique. » Si le rôle chevauche des États américains avec des seuils de loi de transparence différents, la fourchette la plus large s’applique. Le skill émet cette information comme sortie distincte pour utilisation directe dans la description de poste.
  5. Émettre le rapport de recommandation + enregistrement d’audit. Le rapport contient : les fourchettes par composante avec le percentile cité et l’enquête source, les notes de calibration, les avertissements faible-N ou données limitées, et la fourchette publique. L’enregistrement d’audit est une ligne JSONL : rôle, géographie, niveau, percentile ciblé, source d’enquête, date d’export, fourchette recommandée — pour l’audit d’équité salariale de l’entreprise plus tard dans l’année.

Réalité des coûts

Par rôle benchmarké, sur Claude Sonnet 4.6 :

  • Tokens LLM — typiquement 5 à 8 000 tokens en entrée (définition du rôle + lignes d’export d’enquête + philosophie + instructions du skill) et 1 à 2 000 tokens en sortie (rapport structuré). Environ 0,04 à 0,08 $ par rôle. Négligeable.
  • Coût d’accès aux enquêtes — les abonnements aux enquêtes eux-mêmes sont le coût contraignant (Radford, Pave, Carta vont de 15 000 à 80 000 $+ annuels selon la couverture). Le skill suppose que l’analyste en rémunération dispose déjà de l’accès ; il ne change pas ce calcul.
  • Temps recruteur / analyste en rémunération — le gain. Composer manuellement une recommandation de rémunération prend 30 à 90 minutes par rôle (recherche d’enquête + jonglerie de tableur + application de la philosophie + rédaction de la note de calibration). Le skill prend 5 à 10 minutes, vérification à blanc incluse.
  • Temps de configuration — 30 minutes une fois pour le fichier de philosophie et l’intégration de l’export d’enquête. Le fichier de philosophie est rarement révisé ; les exports d’enquête se rafraîchissent chaque trimestre.

Mesure de succès

Suivez trois chiffres, chaque trimestre :

  • Taux d’acceptation des offres dans les 3 semaines — une rémunération calibrée entraîne l’acceptation. En dessous de 60 % dans votre géographie, vous sous-payez ; au-dessus de 90 %, vous pourriez sur-payer. Les deux directions comptent ; le bon chiffre dépend de la philosophie de rémunération de l’entreprise (les startups à fort equity acceptent une base plus faible ; les entreprises en phase de croissance à forte base acceptent une base plus élevée).
  • Taux d’édition des fourchettes post-skill — part des fourchettes recommandées par le skill que le hiring manager ou la finance modifie avant approbation. Devrait se situer à 10 à 25 %. Au-dessus de 40 %, le fichier de philosophie ne reflète pas le comportement réel d’approbation ; en dessous de 5 %, la commission entérine (le mode d’échec contre lequel le skill est conçu).
  • Dérive d’audit d’équité salariale — lors de la revue annuelle d’équité salariale, les recommandations du skill corrèlent-elles avec les offres réelles faites ? Si l’audit fait apparaître des écarts d’équité que les recommandations du skill auraient comblés, le skill fait son travail ; si l’audit fait apparaître des écarts que les recommandations du skill auraient creusés, le fichier de philosophie ou la calibration est biaisé.

Par rapport aux alternatives

  • vs rapports Pave / Carta / Radford / Mercer directement. Les rapports sont les données sources ; le skill les compose en une recommandation par rôle. Choisissez les rapports seuls si votre analyste en rémunération y vit et que le recruteur ne consomme que « dites-moi le 75e ». Choisissez le skill si le recruteur a besoin de la note de calibration + fourchette publique + enregistrement d’audit sans l’analyste dans la boucle pour chaque rôle.
  • vs style ChatGPT « que devrais-je payer un senior engineer à New York ». Le chat générique retourne des données d’enquête paraphrasées sans piste d’audit ni source versionnée — ce n’est pas défendable lors d’un audit d’équité salariale. Le skill cite l’export d’enquête par nom et date.
  • vs modèles de feuilles de calcul. Les modèles fonctionnent jusqu’au moment où la philosophie de l’entreprise change ou que l’export d’enquête se rafraîchit ; ensuite, chaque modèle sauvegardé devient silencieusement obsolète. Le skill lit à partir des sources actuelles à chaque exécution.
  • vs aucun benchmark. La situation par défaut dans beaucoup de petites entreprises. Mode d’échec prévisible : les écarts d’équité salariale apparaissent lors de l’audit annuel, et le recruteur est tenu responsable d’offres individuelles qui correspondaient à la pratique normale de l’entreprise. Un benchmark défendable est l’intervention la moins coûteuse contre cela.

Points de vigilance

  • Obsolescence des exports d’enquête. Garde : le skill lit les métadonnées datées de l’export et avertit si l’export est antérieur à 6 mois. Les données d’enquête évoluent plus vite qu’annuellement ; le rafraîchissement trimestriel est le minimum.
  • Mauvaise correspondance géographique. Garde : le skill fait correspondre la géographie du rôle à la taxonomie géographique de l’enquête explicitement (« SF Bay Area » de Pave n’est pas la même cellule que « San Francisco MSA » de Radford). Si la correspondance est ambiguë, le skill s’arrête et demande au recruteur de lever l’ambiguïté plutôt que de choisir une valeur par défaut.
  • Cellule faible-N. Garde : le skill refuse de recommander une fourchette basée sur les percentiles lorsque la cellule d’enquête a moins de répondants que le seuil documenté de l’enquête. Il se replie sur une cellule plus large (fonction plus large, géographie plus large) et note le repli.
  • Dérive de la comparaison equity. Garde : les valeurs equity sont annualisées et converties au prix d’exercice actuel de l’entreprise. Le calcul de conversion est documenté dans le rapport. L’enregistrement d’audit stocke les valeurs brutes et converties afin que les audits futurs puissent les dériver à nouveau.
  • Fourchette publique trop étroite. Garde : si la fourchette publique est si étroite qu’elle fonctionne comme un seul chiffre, le skill avertit. Publier « 140 000 $-145 000 $ » est une violation de l’esprit (et probablement de la lettre) de NYC LL 32-A, qui exige une fourchette de « bonne foi ». Le skill applique une largeur de fourchette minimale par géographie.
  • Propagation des biais à travers la rémunération historique. Garde : si le fichier de philosophie de l’entreprise est calibré par « correspondre à ce que nous avons payé dans cette fourchette auparavant », le skill propage les écarts salariaux existants dans les données historiques. Le skill signale cela lorsque la correspondance de philosophie suit de près la rémunération historique plutôt que les percentiles d’enquête, et recommande à l’analyste en rémunération d’effectuer une vérification distincte d’équité salariale.

Stack

Le bundle du skill se trouve dans apps/web/public/artifacts/compensation-benchmark-skill/ et contient :

  • SKILL.md — la définition du skill
  • references/1-survey-source-schemas.md — schémas d’export par source (Radford, Pave, Carta, CSV personnalisé)
  • references/2-comp-philosophy-template.md — fichier de philosophie remplissable par entreprise

Outils que le workflow suppose que vous utilisez : Claude (le modèle), Ashby ou Greenhouse (l’ATS, pour la publication de la fourchette publique).

Concepts connexes : métriques d’entonnoir de recrutement, taux d’acceptation des offres, expérience candidat.

Files in this artifact

Download all (.zip)