ooligo
claude-skill

Benchmark de remuneração com Claude

Dificuldade
intermediário
Tempo de setup
30min
Para
recruiter · compensation-analyst · hiring-manager
Recrutamento e TA

Stack

Uma Claude Skill que recebe o nível, a geografia e o export de uma pesquisa de comp (Radford, Pave, Carta) para uma vaga, e produz uma recomendação estruturada de faixa salarial por componente (base, equity, bônus / OTE) com percentil nomeado, citação da pesquisa-fonte e as notas de calibração que o recruiter leva para a call de oferta. Substitui o malabarismo de abas e planilhas do recruiter por um único documento que o hiring manager e o aprovador de finanças podem assinar. Publica a faixa pública (em conformidade com NYC LL 32-A, CO/CA/WA pay-transparency) como output separado.

Quando usar

  • Você está publicando uma nova vaga e precisa de uma faixa pública com fonte defensável (não o framing vago de padrão da indústria, nem percentil 75 sem nomear a pesquisa ou a geografia).
  • Você está preparando uma oferta e precisa da faixa que o hiring manager consiga aprovar sem meio dia de idas e vindas com finanças.
  • Você está auditando faixas de comp existentes trimestralmente e quer uma comparação estruturada entre “o que pagamos” e “o que a pesquisa diz” por família de cargos.

Quando NÃO usar

  • Decisões unilaterais de comp fora de uma cadeia de aprovação formal. A skill produz uma recomendação. A filosofia de remuneração e a matriz de aprovação pertencem ao People Ops / Finance / Comitê de Comp. A skill os informa; ela não os substitui.
  • Equity em startups pré-Série B. Benchmark de equity em estágios muito iniciais depende mais do cap table específico e do caminho de diluição da empresa do que de dados de mercado. Os números das pesquisas não se aplicam ali.
  • Geração de script de negociação. A skill entrega uma faixa; ela não escreve a linguagem de negociação. Linguagem de negociação de comp gerada automaticamente soa fria e prejudica a candidate experience.
  • Decisões de exceção específicas por candidato. “Podemos oferecer 15% acima da faixa para este candidato?” é uma pergunta para o hiring manager e finanças, não para a skill. A skill informa apresentando a faixa; ela não aprova exceções.
  • Geografias em que a pesquisa tem dados rarefeitos. As pesquisas cobrem bem os EUA, a UE e os principais mercados APAC; dados de mercados emergentes (LatAm, África, APAC menor) são mais rarefeitos. A skill sinaliza geografias com N baixo no output.

Setup

  1. Coloque o bundle. Posicione apps/web/public/artifacts/compensation-benchmark-skill/SKILL.md no seu diretório de skills do Claude Code.
  2. Configure a fonte da pesquisa. A skill lê exports de Radford, Pave, Carta ou um CSV custom. Os schemas por fonte ficam em references/1-survey-source-schemas.md. A skill não chama APIs das pesquisas diretamente — os exports passam pelo caminho de acesso aprovado do seu comp analyst.
  3. Defina a filosofia de remuneração da empresa. Em que percentil a empresa paga (50, 60, 75)? Base+equity somam um percentil-alvo, ou cada um é calibrado separadamente? A filosofia mora em references/2-comp-philosophy-template.md e é o input contra o qual a skill calibra.
  4. Configure o output da cadeia de aprovação. A skill emite a faixa pública como output separado (em conformidade com NYC LL 32-A, CO/CA/WA pay-transparency). Conecte esse output ao seu passo de publicação de vagas (descrição da vaga em Greenhouse / Ashby), ou copie manualmente, conforme o processo do seu time.
  5. Dry-run em uma oferta fechada. Faça benchmark de uma vaga que você fechou no último trimestre. Compare a faixa da skill com o que a oferta foi de fato. Se a divergência for grande, ou o export da pesquisa está fora de ciclo, ou o arquivo de filosofia da empresa não reflete como as ofertas estão sendo aprovadas na prática.

O que a skill faz de fato

Cinco passos. A ordem mantém as consultas determinísticas à pesquisa antes da calibração baseada em LLM, porque deixar o modelo parafrasear números de pesquisa introduz um drift que o recruiter não consegue auditar.

  1. Validar a definição da vaga. Checar que nível, geografia e função da vaga estão presentes e batem com valores no export da pesquisa. Parar em campos ausentes ou ambíguos (“Senior Engineer” sem nível no ladder da empresa é ambíguo).
  2. Consultar percentis da pesquisa. Lookup determinístico, não LLM. Para cada um — base, equity (anualizado) e bônus / OTE — puxe os percentis 25 / 50 / 60 / 75 / 90 do export da pesquisa para a célula (nível, geografia, função) correspondente. Se a célula tem menos respondentes que o limiar de tamanho de amostra documentado pela pesquisa (varia: Radford tipicamente 5+, Pave tipicamente 10+), sinalize N baixo e recuse-se a recomendar uma faixa baseada em percentil — caia para (nível, função) mais amplo sem geografia, ou para geografia expandida (ex.: “US-wide” em vez de “Bay Area”).
  3. Calibrar contra a filosofia da empresa. Leia a filosofia de comp da empresa. Aplique o percentil-alvo aos números da pesquisa. O output é uma faixa estruturada por componente:
    • Base: target_pct da pesquisa, com range de ±10% para absorver variação por nível do candidato.
    • Equity: idem; converta para valor em dólar pelo strike price atual da empresa para novos grants, documente a conta.
    • Bônus / OTE: target_pct no OTE; divida base/variável pelo ratio da empresa para a função.
  4. Compor a faixa pública. Por NYC LL 32-A e pelos requisitos de pay-transparency de CO/CA/WA, a publicação pública precisa de uma faixa de salário-base. Default: “mínimo da borda inferior da faixa até o máximo da borda superior, expresso como faixa salarial única.” Se a vaga cruza estados dos EUA com limiares diferentes de lei de transparência, vale a faixa mais ampla. A skill emite isso como output separado para uso direto no JD.
  5. Emitir o relatório de recomendação + registro de auditoria. O relatório traz: faixas por componente com percentil citado e pesquisa-fonte, notas de calibração, alertas de N baixo ou dados rarefeitos, e a faixa pública. O registro de auditoria é uma linha JSONL: vaga, geografia, nível, percentil-alvo, pesquisa-fonte, data do export, faixa recomendada — para a auditoria de pay-equity da empresa no fim do ano.

A realidade do custo

Por vaga com benchmark, em Claude Sonnet 4.6:

  • Tokens de LLM — tipicamente 5-8k input (definição da vaga + linhas do export da pesquisa + filosofia + instruções da skill) e 1-2k output (relatório estruturado). Aproximadamente US$ 0,04-0,08 por vaga. Desprezível.
  • Custo de acesso à pesquisa — as próprias assinaturas das pesquisas são o custo dominante (Radford, Pave, Carta vão de US$ 15K a US$ 80K+ anuais dependendo da cobertura). A skill assume que o comp analyst já tem acesso; ela não muda essa conta.
  • Tempo do recruiter / comp analyst — o ganho. Compor uma recomendação de comp à mão leva 30-90 minutos por vaga (lookup na pesquisa + malabarismo de planilha + aplicação da filosofia + escrita da nota de calibração). A skill leva 5-10 minutos, incluindo o sanity check do dry-run.
  • Tempo de setup — 30 minutos uma vez, para o arquivo de filosofia e a integração do export da pesquisa. O arquivo de filosofia é raramente revisto; exports de pesquisa atualizam trimestralmente.

Métrica de sucesso

Acompanhe três números, trimestralmente:

  • Taxa de aceitação de oferta em 3 semanas — comp calibrada puxa aceitação. Abaixo de 60% na sua geografia e você está pagando abaixo; acima de 90% você pode estar pagando acima. Os dois lados importam; o número certo depende da filosofia de comp da empresa (startups high-equity aceitam base menor; empresas mid-stage high-base aceitam base maior).
  • Taxa de edição da faixa pós-skill — fatia das faixas recomendadas pela skill que o hiring manager ou finanças edita antes de aprovar. Deve ficar em 10-25%. Acima de 40% significa que o arquivo de filosofia não reflete o comportamento real de aprovação; abaixo de 5% significa que o painel está só carimbando (o modo de falha contra o qual a skill foi desenhada).
  • Drift na auditoria de pay-equity — na revisão anual de pay-equity, as recomendações da skill se correlacionam com onde as ofertas reais aterrissaram? Se a auditoria expõe gaps de equity que as recomendações da skill teriam fechado, a skill está fazendo seu trabalho; se a auditoria expõe gaps que as recomendações da skill teriam ampliado, o arquivo de filosofia ou a calibração estão enviesados.

vs alternativas

  • vs relatórios de Pave / Carta / Radford / Mercer diretamente. Os relatórios são a fonte; a skill os compõe em uma recomendação por vaga. Escolha os relatórios sozinhos se seu comp analyst vive neles e o recruiter só consome “me diga o percentil 75”. Escolha a skill se o recruiter precisa da nota de calibração + faixa pública + registro de auditoria sem o analyst no meio do caminho a cada vaga.
  • vs ChatGPT-style “quanto devo pagar a um senior engineer em NY”. Chat genérico devolve dados de pesquisa parafraseados sem trilha de auditoria e sem fonte com versão fixa — isso não é defensável na auditoria de pay-equity. A skill cita o export da pesquisa por nome e data.
  • vs templates de planilha. Templates funcionam até a filosofia da empresa mudar ou o export da pesquisa atualizar; aí cada template salvo fica silenciosamente desatualizado. A skill lê das fontes atuais a cada execução.
  • vs não fazer benchmarking. O default em muitas empresas menores. Modo de falha previsível: gaps de pay-equity aparecem na auditoria anual, e o recruiter leva a culpa por ofertas individuais que estavam dentro da prática normal da empresa. Benchmarking defensável é a intervenção mais barata contra isso.

Pontos de atenção

  • Export da pesquisa desatualizado. Guarda: a skill lê os metadados de data do export e avisa se o export tem mais de 6 meses. Dados de pesquisa se movem mais rápido que anualmente; refresh trimestral é o piso.
  • Mapeamento errado de geografia. Guarda: a skill confronta a geografia da vaga contra a taxonomia geográfica da pesquisa explicitamente (“SF Bay Area” do Pave não é a mesma célula que “San Francisco MSA” do Radford). Se o match é ambíguo, a skill para e pede ao recruiter para desambiguar em vez de escolher um default.
  • Célula com N baixo. Guarda: a skill se recusa a recomendar uma faixa baseada em percentil quando a célula da pesquisa tem menos respondentes que o limiar documentado pela pesquisa. Ela cai para uma célula mais ampla (função mais ampla, geografia mais ampla) e registra o fallback.
  • Drift na comparação de equity. Guarda: valores de equity são anualizados e convertidos pelo strike price atual da empresa. A conta da conversão é documentada no relatório. O registro de auditoria guarda os valores bruto e convertido para que auditorias futuras possam refazer a derivação.
  • Faixa pública apertada demais. Guarda: se a faixa pública é tão estreita que funciona como um número único, a skill avisa. Publicar “US$ 140K-US$ 145K” viola o espírito (e talvez a letra) do NYC LL 32-A, que exige uma faixa “de boa-fé”. A skill impõe uma largura mínima de faixa por geografia.
  • Propagação de viés via comp histórico. Guarda: se o arquivo de filosofia da empresa for calibrado em “bater o que já pagamos nessa faixa antes”, a skill propaga quaisquer gaps de remuneração existentes nos dados históricos. A skill sinaliza isso quando o casamento de filosofia segue de perto a remuneração histórica em vez dos percentis da pesquisa, e recomenda que o comp analyst rode uma checagem separada de pay-equity.

Stack

O bundle da skill mora em apps/web/public/artifacts/compensation-benchmark-skill/ e contém:

  • SKILL.md — a definição da skill
  • references/1-survey-source-schemas.md — schemas de export por fonte (Radford, Pave, Carta, CSV custom)
  • references/2-comp-philosophy-template.md — arquivo de filosofia preenchível por empresa

Ferramentas que o workflow assume que você usa: Claude (o modelo), Ashby ou Greenhouse (o ATS, para publicar a faixa pública).

Conceitos relacionados: recruiting funnel metrics, offer acceptance rate, candidate experience.

Arquivos deste artefato

Baixar tudo (.zip)