claude-skill

Audit an ABM list against an ICP rubric with Claude

Dificuldade

intermediário

Tempo de setup

30-60 min

Para

revops

RevOps

Stack

Um Claude Skill que recebe uma lista de contas-alvo ABM e uma rubrica ICP e retorna um relatório de defeitos por conta — cada conta que não atende aos critérios recebe um código de defeito de uma taxonomia definida (wrong-size, wrong-industry, wrong-geo, stale-data, low-intent, missing-field), um nível de qualidade (Q1 a Q4), uma pontuação de qualidade da lista e uma fila de remediação priorizada. O bundle está em apps/web/public/artifacts/abm-list-quality-audit-skill/ e contém SKILL.md mais três templates de referência que o usuário adapta antes do primeiro uso.

Ele responde à pergunta que a maioria das campanhas ABM ignora antes do lançamento: “Das 300 contas nesta lista, quantas realmente atendem ao nosso ICP, e o que exatamente está errado com as que não atendem?” Sem essa resposta, o gasto em plataformas ABM — 6sense, Demandbase, LinkedIn matched audiences — vai para contas que você nunca converteria, e os resultados decepcionantes da campanha são atribuídos a mensagem ou canal em vez de qualidade de lista.

Quando usar

Use este skill antes de carregar qualquer lista ABM em uma plataforma de mídia paga, antes de atribuir contas nomeadas a AEs e antes do lançamento de qualquer campanha em que a lista foi montada há mais de 90 dias. As listas ABM se degradam mais rápido do que a maioria das equipes de RevOps percebe: os dados de headcount ficam desatualizados, os estágios de financiamento mudam, empresas são adquiridas e a própria rubrica ICP às vezes muda sem que a lista seja reavaliada.

O skill também é a ferramenta certa para higiene trimestral de listas. Execute-o em todo o seu universo ABM — não apenas nas listas de campanha — para encontrar contas que foram adicionadas quando seu ICP era diferente e não foram reavaliadas desde então. A tabela de frequência de defeitos diz quais lacunas de enriquecimento são mais comuns em seu universo, o que é acionável para quem é responsável pelo workflow de enriquecimento do Clay.

Invoque a partir de:

Uma tabela do Clay onde cada linha é uma conta, acionada manualmente antes do lançamento de uma campanha ou em um cron trimestral. O skill escreve quality_tier e defect_codes de volta para duas colunas do Clay; a automação downstream pode filtrar nelas para suprimir contas Q3/Q4 de uploads de campanha.
Uma verificação pré-voo de CSV antes de importar para o 6sense ou qualquer plataforma de publicidade ABM. Executar a auditoria remove contas que você de outra forma pagaria para atingir — nas taxas típicas de CPM de ABM ($20-40 por 1.000 impressões), remover 50 contas fora do ICP de uma lista de 500 reduz o desperdício em 10%.
Um trigger baseado em relatório do Salesforce sobre contas nomeadas em um segmento, escrevendo ABM_Quality_Tier__c e ABM_Defect_Codes__c de volta ao registro de conta.

Quando NÃO usar

Pule este skill quando:

Você quer pontuar MQLs inbound. A auditoria é projetada para listas de contas nomeadas outbound. Para triagem de leads inbound, o skill lead-scoring-icp-rubric é a ferramenta certa — ele lida com o fluxo de lead único e a lógica de escalonamento borderline que importa para inbound.
Sua rubrica ICP ainda não existe. O skill audita em relação a uma rubrica que você fornece. Se você não teve a discussão sobre ICP — quais indústrias, faixas de headcount e geografias você realmente ganha — essa conversa deve acontecer primeiro. Executar uma auditoria contra uma rubrica de placeholder produz uma falsa sensação de rigor.
A lista precisa de deduplicação, não de auditoria. Se o objetivo é remover clientes atuais, concorrentes, contas canceladas ou contatos com GDPR suprimido, isso é uma operação de filtro, não uma auditoria ICP. Execute essas exclusões antes da auditoria, ou o skill gastará tokens pontuando empresas que você já sabe que quer excluir.
Você precisa gerar a lista, não auditá-la. O skill recebe uma lista existente como entrada. Ele não executa descoberta de TAM nem gera novas contas. Use um workflow dedicado de construção de listas — Clay mais critérios ICP — para produzir a lista bruta primeiro.
A lista tem menos de 20 contas. Abaixo desse tamanho, um RevOps ou AE experiente pode revisar manualmente cada conta em menos de uma hora. O custo de configuração do skill (configuração de rubrica, personalização de taxonomia de defeitos) não vale a pena.

Configuração

A configuração leva de 30 a 60 minutos, assumindo que a rubrica ICP existe. A discussão sobre a rubrica — alinhar RevOps, liderança GTM e um ou dois AEs sobre o que realmente significa uma indústria e uma faixa de headcount de nível A — leva mais tempo e acontece antes da configuração.

Instale o Skill. Copie apps/web/public/artifacts/abm-list-quality-audit-skill/SKILL.md e a pasta references/ para seu diretório .claude/skills/abm-audit/, ou faça upload como Skill no claude.ai. Os campos name e description do frontmatter são o gatilho em prompts relevantes.
Configure a rubrica ICP. Abra references/1-icp-rubric-template.md. Se sua equipe já usa o skill lead-scoring-icp-rubric, você pode referenciar o mesmo arquivo de rubrica — a estrutura é idêntica. Substitua as linhas de placeholder por critérios reais, pesos (1-5) e valores de nível (A / B / C). Preencha a seção de desqualificadores definitivos. Atualize “Last edited” — o SHA-256 que o skill registra em cada rodapé de relatório garante que os stakeholders possam saber quando a rubrica mudou.
Configure a taxonomia de defeitos. Abra references/2-defect-taxonomy.md. Os próprios códigos de defeito são fixos — não os renomeie, pois parsers downstream usam as strings de código. Edite a coluna “Remediation action” para corresponder ao processo real da sua equipe: qual coluna do Clay fornece o re-enriquecimento de headcount, quem é o responsável pela assinatura do ZoomInfo, qual segmento cuida das contas de estouro empresarial.
Prepare os scores de intenção (opcional mas de alto valor). Se você usa 6sense ou Bombora, exporte um mapa domain → intent_score para seu universo de contas e passe-o como entrada intent_scores. Isso adiciona anotações low-intent e intent-spike sobre as pontuações da rubrica — o flag intent-spike é particularmente valioso para contas Q2 que estão em ICP mas são borderline, porque as coloca em evidência para priorização mesmo antes do re-enriquecimento.
Defina o limite de obsolescência do enriquecimento. Atualize enrichment_staleness_days para corresponder à agressividade com que sua camada de enriquecimento recicla dados. O Clay + ZoomInfo tipicamente atualiza em um cronograma de 90 dias; se você executa enriquecimento mensal, pode definir 45 dias. Isso aciona o código de defeito stale-data.
Teste em uma lista conhecida. Execute o skill em 20-30 contas que você conhece bem — uma mistura de clientes atuais, contas canceladas e prospects de qualidade variada. Verifique se os níveis de qualidade correspondem à intuição da sua equipe. Se contas Q1 estão mostrando códigos de defeito, a rubrica está mal calibrada. Se contas obviamente fora do ICP estão pontuando Q2, os desqualificadores definitivos ou pesos precisam de ajuste.

O que o skill realmente faz

O skill executa quatro etapas em uma ordem fixa.

Etapa 1 — varredura de desqualificadores definitivos. Antes de qualquer chamada LLM, cada conta é verificada contra os desqualificadores definitivos da rubrica: país sancionado, indústria desqualificada, headcount abaixo do mínimo absoluto, contas na lista de exclusão explícita (concorrentes, clientes atuais). As que correspondem recebem o código de defeito hd:{reason} e um nível de qualidade de disqualified. Esta etapa é determinística e é executada em cada conta em milissegundos. Por que executar primeiro: em uma lista de 500 contas, é comum que 5-15% das contas sejam desqualificações imediatas — executar pontuação LLM nessas contas desperdiça tokens e adiciona latência sem adicionar informação.

Etapa 2 — pontuação da rubrica ICP por conta. Contas que passaram pela varredura de desqualificadores definitivos são pontuadas em cada critério da rubrica. Para cada critério, o modelo emite um nível (A / B / C), um peso (da rubrica) e uma justificativa de uma frase citando a linha da rubrica. A soma ponderada mapeia para um nível de qualidade: Q1 (pontuação ≥ 8,0), Q2 (6,0-7,99), Q3 (4,0-5,99), Q4 (< 4,0). Critérios com falha geram os códigos de defeito correspondentes — uma pontuação de critério C de headcount em uma conta abaixo do mínimo do nível B gera wrong-size:too-small.

Por que por critério em vez de uma pontuação holística: os códigos de defeito que impulsionam a fila de remediação requerem saber qual critério específico falhou, não apenas que a pontuação geral foi baixa. Uma conta Q3 com missing-field:tech_stack é uma tarefa de remediação diferente de uma conta Q3 com wrong-industry — a primeira precisa de enriquecimento, a segunda precisa de remoção.

Etapa 3 — detecção de defeitos suplementares. Após a pontuação da rubrica, o skill verifica defeitos não cobertos pela rubrica: stale-data (enriquecimento mais antigo que o limite), missing-field:{field} (critérios que não puderam ser pontuados), low-intent e intent-spike dos scores de intenção fornecidos. O flag intent-spike pode aparecer mesmo em contas Q2 — ele coloca em evidência contas onde o comportamento no mercado deveria anular a pontuação de rubrica borderline e acionar contato direto do AE de qualquer forma.

Etapa 4 — agregação no nível da lista. Após a pontuação por conta, o skill calcula a pontuação de qualidade da lista (Q1% + Q2% - Q3% - 2×Q4%, escalado para 100), a tabela de frequência de defeitos e a fila de remediação. A fila de remediação é ordenada por estimativa de elevação na re-auditoria: contas com maior probabilidade de se tornar Q1 após re-enriquecimento aparecem primeiro. Uma pontuação de qualidade de lista abaixo de 30 é o sinal de go/no-go do skill — a seção de recomendação dirá “Não lançar até que as contas Q3/Q4 sejam remediadas ou removidas.”

Realidade de custos

O custo de tokens por conta depende do tamanho da rubrica e de quantos dados de conta são fornecidos. Para uma rubrica típica de 6 critérios com output estruturado por critério e um registro de conta de 300-500 tokens de dados, espere aproximadamente 1.200-2.000 tokens de entrada e 300-500 tokens de saída por conta. Nos preços do Claude Sonnet 4.x (aproximadamente $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída no início de 2026), isso representa $0,008-0,015 por conta.

Uma auditoria pré-campanha de 500 contas custa $4-8 em tokens do Claude. Uma passagem trimestral de higiene em um universo ABM de 2.000 contas custa $16-30. Esses valores são menores do que o custo de uma única sequência de AE mal roteada. O custo não relacionado a tokens é maior: configurar corretamente a rubrica e a taxonomia de defeitos é uma sessão de 60-90 minutos; planeje para isso.

O custo de tokens por conta é menor do que o skill de pontuação de leads porque as contas ABM tipicamente têm dados estruturados mais ricos (menos campos ausentes) e os códigos de defeito são mais compactos do que uma justificativa completa por critério. Se suas contas têm muitos campos ausentes, mais do processamento cai na etapa de defeito suplementar, que é determinística e gratuita.

O cache de prompts dos arquivos de rubrica e taxonomia de defeitos vale a pena de forma significativa em escala — em uma auditoria de 500 contas, a rubrica é carregada uma vez e armazenada em cache em todo o lote. Em uma verificação pontual de 5 contas, não faz diferença.

Métrica de sucesso

A métrica principal para a auditoria é a tendência de pontuação de qualidade da lista: execute a auditoria no mesmo universo ABM a cada trimestre e acompanhe se a pontuação de qualidade da lista sobe. Uma pontuação crescente significa que sua cadência de enriquecimento está funcionando, sua rubrica é estável e seu processo de construção de listas foi ajustado. Uma pontuação em queda — ou uma pontuação que permanece estável apesar do esforço de remediação — significa que a rubrica mudou ou que a fonte de enriquecimento não é confiável.

Métrica secundária: taxa de conversão de campanha ABM por nível de qualidade. Após 90 dias de execução de campanhas contra listas auditadas, compare a taxa de conversão para oportunidade para contas Q1 vs contas Q2 vs contas que foram remediadas de Q3 antes de serem incluídas. Q1 deve converter a uma taxa maior do que Q2, e Q2 após remediação deve converter a uma taxa maior do que Q3 não auditado. Se não houver diferença de conversão entre níveis, a rubrica não é preditiva e precisa ser re-argumentada.

Modos de falha

Códigos de defeito que acusam a rubrica, não a lista. Se 35% da sua lista recebe wrong-size:too-small, o problema é geralmente o mínimo de headcount na rubrica, não a lista. A rubrica pode ter sido definida quando seu movimento era puramente empresarial e não foi atualizada desde que você abriu um segmento SMB. Agir sobre esses códigos de defeito removendo 35% da lista é o movimento errado; reexaminar a rubrica é o correto. Guard: após cada auditoria, verifique se algum código de defeito único se aplica a mais de 25% das contas. Se sim, revise o critério da rubrica que gera esse código antes de remediar a lista. A tabela de frequência de defeitos no output da auditoria torna essa verificação fácil — o código mais comum é sempre a linha um da tabela.
Enriquecimento desatualizado produzindo falsos negativos em boas contas. Uma conta com last_enrichment_date de 14 meses atrás pode ter triplicado o headcount, levantado uma Série B e adicionado Salesforce ao seu tech stack desde que esses dados foram coletados. O veredicto Q4 do skill sobre essa conta não é um veredicto sobre a empresa — é um veredicto sobre sua cadência de enriquecimento. Remover ou despriorizar essas contas antes de re-enriquecê-las perde pipeline real. Guard: o skill adiciona stale-data a qualquer conta onde o enriquecimento ultrapasse o limite de obsolescência e anota “scored on potentially stale data” na justificativa. A fila de remediação coloca contas stale-data + alto potencial de pontuação da rubrica no topo. A regra vigente: nunca remover uma conta da lista somente por causa de stale-data; sempre re-enriquecê-la primeiro.
Inflação de score de intenção por comportamento de usuário único. Uma empresa em um segmento de “alta intenção” do 6sense pode estar lá porque um analista júnior da empresa leu três posts do blog. Apresentar essa empresa como intent-spike e roteá-la para contato direto do AE com base nesse sinal é um falso positivo que consome tempo do AE. Guard: quando intent_scores são fornecidos, o skill exibe a pontuação de intenção bruta e a fonte junto com o flag intent-spike. A orientação vigente no output do skill: antes de agir em qualquer sinal intent-spike, verifique com o 6sense ou sua plataforma ABM que a atividade de intenção origina de personas do comité de compra — nível diretor ou acima em áreas funcionais relevantes — em vez de um único usuário de baixa autoridade.
Deriva da rubrica invalidando comparações históricas de auditoria. Se a rubrica muda entre a auditoria do Q2 e a auditoria do Q3, as pontuações de qualidade de lista não são comparáveis — uma pontuação crescente pode simplesmente refletir uma rubrica mais flexível, não uma melhoria real da lista. Guard: o skill registra o SHA-256 da rubrica em cada rodapé de auditoria. Ao comparar pontuações de qualidade de lista trimestre a trimestre, confirme que o SHA-256 da rubrica é idêntico. Se a rubrica mudou, re-execute a lista do trimestre anterior contra a nova rubrica antes de fazer comparações. A data “Last edited” no arquivo de rubrica e o lembrete trimestral no calendário para revisar a rubrica trabalham juntos para tornar a deriva visível antes que ela distorça a tendência.

vs alternativas

vs revisão manual de RevOps. Para uma lista com menos de 50 contas, um analista de RevOps experiente com a rubrica ICP aberta pode revisar manualmente cada conta em 2-3 horas e produzir um resultado melhor calibrado do que o skill — humanos captam casos extremos, como “essa empresa tem um código SIC estranho mas seu produto real claramente está em nosso ICP,” que o skill perderá. Acima de 150 contas, a revisão manual se torna inconsistente: a intuição ICP do analista deriva entre a primeira conta e a 130ª. O skill aplica a rubrica de forma consistente em qualquer tamanho de lista.

vs a gradação de contas integrada do 6sense. O 6sense fornece uma pontuação de fit de conta com base em seu modelo ICP proprietário, treinado em empresas no seu CRM com histórico positivo de engajamento. É útil quando você tem histórico de CRM suficiente para o 6sense aprender (tipicamente 50-100 contas ganhas). Para equipes abaixo desse patamar, o modelo de fit do 6sense está sub-treinado e ruidoso. Este skill funciona desde o primeiro dia porque a rubrica é de autoria manual. A compensação: o modelo do 6sense capta padrões que você não escreveu explicitamente; este skill só sabe o que você disse a ele. Para equipes com 50+ fechadas-ganhas, execute os dois — use a pontuação do 6sense para “o que me surpreende” e os códigos de defeito deste skill para “o que especificamente está errado com as contas Q3.”

vs uma matriz de pontuação ICP em planilha. Muitas equipes de RevOps têm uma planilha onde avaliam manualmente cada conta em relação aos critérios ICP. A abordagem de planilha falha em escala (a consistência cai acima de 50 contas), não produz uma taxonomia de defeitos (diz a pontuação, não por que está errada) e fica desatualizada no momento em que a rubrica muda porque ninguém atualiza todas as linhas pontuadas anteriormente. Este skill aplica a rubrica de forma consistente, nomeia o defeito específico e o mecanismo SHA-256 garante que você saiba quando a rubrica se moveu. A planilha é a ferramenta certa para as primeiras 20 contas; o skill é a ferramenta certa depois disso.

Editar esta página no GitHub

Arquivos deste artefato

Baixar tudo (.zip)

---
name: abm-list-quality-audit
description: Audit an ABM target list against an explicit ICP rubric and return a defect report for every account that fails. Produces a per-account defect taxonomy (wrong-size, wrong-industry, wrong-geo, wrong-funding, tech-mismatch, stale-data, low-intent, missing-field), a list-level quality score, and a prioritized remediation queue. Use before any ABM campaign goes live — not as a substitute for ICP strategy work.
---

# ABM list quality audit

## When to invoke

Invoke before launching any ABM campaign, before loading a list into a paid-media ABM platform, or before assigning named accounts to AEs. The skill takes a structured account list and your ICP rubric and returns a per-account defect report plus a list-level quality score.

The skill is also useful for quarterly list hygiene: run it over your existing ABM universe to find accounts that were added months ago and no longer match the current ICP, or accounts where enrichment has gone stale.

Invoke from:

- A **Clay table** where each row is an account, triggered manually or on a quarterly schedule. The skill writes defect codes and a quality tier back to two columns.
- A **CSV pre-flight check** before import into 6sense, Demandbase, or any ABM advertising platform that charges per account or per impression — running the audit first removes accounts you would pay to target and never convert.
- A **Salesforce report-based trigger** over named accounts in a specified segment, via a custom-code action that calls the skill and writes `ABM_Quality_Tier__c` and `ABM_Defect_Codes__c` back to the account record.

Do NOT invoke this skill for:

- **Scoring individual inbound leads.** The audit is designed for outbound named-account lists, not for triage of inbound MQLs. For inbound scoring, use the lead-scoring-icp-rubric skill.
- **Replacing the ICP strategy session.** The skill audits against a rubric you provide. If the rubric is a proxy for last year's customers, the audit will reproduce last year's biases. Have the ICP argument with your RevOps and GTM leadership before running the audit.
- **Generating net-new accounts.** The skill audits an existing list. It does not generate new accounts or run discovery on the TAM. Use a dedicated list-building workflow (Clay + ICP criteria) to generate the raw list first.
- **Suppression list management.** If the goal is to remove churned customers, competitors, or current customers from the list, that is deduplication, not auditing. Run those exclusion checks before invoking the skill.

## Inputs

Required:

- `account_list` — a structured list of account records. Minimum fields per account: `company_name`, `company_domain`. Strongly preferred: `industry`, `headcount`, `country`, `revenue_band`, `tech_stack` (array), `funding_stage`, `last_enrichment_date`.
- `rubric` — path to or inline contents of the ICP rubric markdown (see `references/1-icp-rubric-template.md`). Must contain explicit criterion + weight + tier-value rows. If the rubric has no weights, the skill refuses to run.

Optional:

- `intent_scores` — a map of `company_domain → intent_score` from 6sense, Bombora, or your ABM platform. When provided, the skill adds a `low-intent` defect code for accounts below your defined intent floor, and an `intent-spike` positive flag for accounts above your hot-intent threshold.
- `enrichment_staleness_days` — integer, default 90. Accounts where `last_enrichment_date` is older than this value receive a `stale-data` defect code. Adjust to match how aggressively your enrichment layer (Clay, ZoomInfo, Apollo) recycles data.
- `list_name` — string. Used to label the audit report. If omitted, defaults to `"Unnamed list — {run_date}"`.

## Reference files

Always load these before running the audit:

- `references/1-icp-rubric-template.md` — the ICP rubric. Same structure as the lead-scoring skill's rubric; shared between the two skills if your team uses both. Weights and tier values must be explicit.
- `references/2-defect-taxonomy.md` — the full defect code vocabulary with definitions, severity levels (P1 / P2 / P3), and the remediation action for each code. Edit this once with your RevOps lead before first use; the codes in the audit output are only as useful as the definitions in this file.
- `references/3-sample-audit-output.md` — a literal example of the full audit report for a 5-account list. Use when wiring downstream parsers or building the CRM writeback.

## Method

The skill runs four steps in order.

### 1. Hard disqualifier sweep (no LLM)

Before any LLM call, check each account against the rubric's hard disqualifiers: sanctioned country, disqualified industry, headcount below floor. Accounts that hit a hard disqualifier receive defect code `hd:{reason}` (e.g. `hd:sanctioned_country`) and a quality tier of `disqualified`. These are deterministic and cheap; they run first so the LLM does not burn tokens on them.

Why deterministic first: same reason as lead scoring — speed and reliability. A hard disqualifier check on 500 accounts takes milliseconds and never hallucinates.

### 2. Per-account ICP rubric scoring

For each account that cleared the hard disqualifier sweep, score against the ICP rubric using the same per-criterion method as the lead-scoring skill (explicit tier + weight + rationale per criterion). The weighted sum maps to a quality tier:

- **Q1** — score ≥ 8.0: in-ICP, meets criteria. No defect codes from rubric scoring.
- **Q2** — score 6.0-7.99: in-ICP with gaps. Defect codes name the specific failing criteria.
- **Q3** — score 4.0-5.99: borderline. Multiple defect codes; recommend enrichment and re-audit before including.
- **Q4** — score < 4.0: out-of-ICP. Recommend removal from the active list; flag for archive.

Why explicit tier thresholds rather than "let the model decide": same reason as lead scoring — the rubric is the source of truth, and the model's job is to apply it, not to re-weight it.

### 3. Supplemental defect detection

After rubric scoring, run supplemental checks that are not covered by the rubric criteria:

- **`stale-data`**: `last_enrichment_date` is older than `enrichment_staleness_days`. The account's rubric score is suspect because the underlying data may be wrong.
- **`missing-field`**: one or more rubric criteria could not be scored because the field was missing from the account record. List the missing field names.
- **`low-intent`**: `intent_scores[domain]` is below the floor defined in the rubric or passed as input. Applied on top of rubric score — a Q1 account with low intent is still in-ICP but is not hot right now.
- **`intent-spike`**: `intent_scores[domain]` is above the hot-intent threshold. A positive flag, not a defect; surfaced to help prioritize outreach even if the rubric score is only Q2.

### 4. List-level quality report and remediation queue

After per-account scoring, aggregate:

- **List quality score**: Q1% + Q2% - Q3% - 2×Q4%. This is a synthetic score intended to give a single number for "how good is this list" at a glance. A score above 60 means the list is predominantly in-ICP; below 30 means the list needs significant remediation before use.
- **Defect frequency table**: counts of each defect code across the list. The most common defect code tells you the single most valuable enrichment or segmentation fix.
- **Remediation queue**: the Q2 and Q3 accounts with `missing-field` or `stale-data` codes, ordered by estimated re-audit lift (accounts most likely to become Q1 after re-enrichment). This is the queue to hand to whoever owns enrichment.

Why a list-level score: individual account scores are useful for routing; the list-level score is useful for the ABM campaign go/no-go decision. If the list score is below 30, the campaign should not launch — the target list is too weak to justify the ABM platform spend.

## Output format

Literal markdown the skill emits for a 5-account list:

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment on accounts with last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by RevOps_
```

## Watch-outs

- **Defect codes that indict the rubric, not the account.** If 40% of the list has `wrong-size` codes, the problem is often not the list — it is a headcount floor in the rubric that was set when the company was targeting larger enterprises and was never updated after the SMB segment was opened. **Guard:** after every audit, check whether any single defect code applies to more than 25% of accounts. If so, review the rubric criterion that generates that code before remediating the list. The list might be right and the rubric wrong.
- **Stale enrichment masking real ICP fit.** An account's `last_enrichment_date` of 14 months ago means its headcount, funding stage, and tech stack data may all be wrong. A Q4 score on stale data is not a verdict on the account — it is a verdict on your enrichment cadence. **Guard:** the skill adds `stale-data` to any account where enrichment is older than the `enrichment_staleness_days` threshold, and the per-account rationale notes "scored on potentially stale data" for any such account. Do not remove Q4 + `stale-data` accounts; re-enrich them first and re-audit.
- **Intent score inflation from brand-aware accounts.** An account in a 6sense high-intent segment may be there because of one analyst at the company who reads your blog weekly — not because the buying committee is in-market. **Guard:** when `intent_scores` are provided, the skill shows the raw intent score alongside the `intent-spike` flag and names the intent source. Before acting on an `intent-spike` account, verify the intent signal is from buying-committee personas, not from a single low-authority user.

# ICP rubric — TEMPLATE (ABM audit)

> Replace this template's contents with your team's actual ICP rubric.
> The ABM list audit skill scores each account against this rubric.
> Vague rows (no weights, no tier values) cause the skill to refuse the run.
>
> This file can be shared with the lead-scoring-icp-rubric skill — the
> rubric structure is identical. If your team uses both skills, maintain
> one rubric file and reference it from both.

## How the skill reads this file

- Each row in "Criteria" must have an explicit `weight` (1-5) and three tier values
  (A / B / C). Malformed rows cause the skill to return an error.
- "Hard disqualifiers" run as deterministic checks before any LLM call. A single
  hit drops the account to `disqualified` regardless of other criteria.
- "Intent thresholds" are optional — only used when `intent_scores` is passed
  as input. Set these to match your ABM platform's scoring bands.
- The "Last edited" line is hashed into the SHA-256 recorded in the audit footer.

## Criteria

| Criterion | Weight | A (best fit) | B (stretch) | C (poor fit) |
|---|---|---|---|---|
| Industry | 5 | {industries you win in, e.g. Vertical SaaS, FinTech} | {adjacent industries} | {everything else} |
| Headcount | 4 | {core range, e.g. 200-2000} | {stretch range, e.g. 50-200 or 2000-5000} | {below/above stretch} |
| Geo | 3 | {primary regions, e.g. US, UK, DACH} | {secondary regions} | {unsupported regions} |
| Tech stack | 4 | {signals of fit, e.g. Salesforce + HubSpot present} | {one fit signal present} | {no fit signals or competing system} |
| Funding stage | 2 | {preferred stages, e.g. Series B-D, public mid-cap} | {adjacent stages} | {unfit, e.g. pre-seed or mature enterprise} |
| Revenue band | 3 | {ARR or revenue band that matches your ACV, e.g. $10M-$100M ARR} | {adjacent band} | {below minimum or above ceiling} |

## Hard disqualifiers

Single signals that drop an account to `disqualified` regardless of other criteria.
Run as deterministic checks before LLM scoring.

- `country in [{sanctioned or unsupported regions}]`
- `industry in [{disqualified industries — e.g. adult content, gambling if you do not serve them}]`
- `headcount < {absolute floor, e.g. 25}` (if you have one)
- `company_domain in [{explicit exclusion list — competitors, current customers, churned accounts}]`

## Intent thresholds (optional — only used when intent_scores provided)

Used to assign `low-intent` or `intent-spike` flags on top of the rubric score.

| 6sense / Bombora intent score | Flag applied |
|---|---|
| ≥ {hot threshold, e.g. 75} | `intent-spike` |
| {floor, e.g. 35} — {hot threshold - 1} | no flag (normal) |
| < {floor, e.g. 35} | `low-intent` |

## Quality tier thresholds

| Weighted score | Quality tier |
|---|---|
| 8.0 - 10.0 | Q1 (in-ICP, no rubric defects) |
| 6.0 - 7.99 | Q2 (in-ICP with gaps) |
| 4.0 - 5.99 | Q3 (borderline — remediate before use) |
| < 4.0 | Q4 (out-of-ICP — recommend removal) |

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Defect taxonomy — TEMPLATE

> This file defines every defect code the ABM list audit skill can assign.
> Edit the "Remediation action" column to match your team's actual processes
> before first use. The codes themselves are fixed — do not rename them;
> downstream parsers (CRM writeback, Clay columns) key on the code strings.

## How the skill reads this file

- Each defect code has a `severity` (P1 / P2 / P3). P1 defects are show-stoppers
  that mean the account should be removed or quarantined from the campaign until
  fixed. P2 defects are remediable. P3 defects are informational — the account
  can proceed, but the ABM or AE team should be aware.
- The skill emits defect codes in the per-account row and the defect-frequency
  table. It does not emit the full definition — that lives here for the human
  reviewer.

## Defect codes

### Rubric-sourced defects (from ICP scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `wrong-industry` | P1 | Account's industry is in the C-tier or disqualified row of the rubric. | Remove from active list. Archive with `out-of-icp` tag. |
| `wrong-size:too-small` | P1 | Headcount is below the rubric's B-tier floor. | Remove unless a specific exemption applies (e.g. fast-growing startup with known expansion intent). |
| `wrong-size:too-large` | P2 | Headcount exceeds the rubric's B-tier ceiling. | Flag for enterprise segment or remove from SMB/mid-market campaign. |
| `wrong-geo` | P1 | Account's HQ region is not in the rubric's supported geo tiers. | Remove from geo-targeted campaign; keep in global campaigns if you have capacity to serve. |
| `wrong-funding` | P2 | Funding stage is in the C-tier row. | Move to a different campaign segment (pre-series A nurture vs. growth-stage ABM). |
| `tech-mismatch` | P2 | Tech stack has no fit signals from the rubric's tech-stack criterion. | Re-enrich tech stack; confirm via BuiltWith or Clay. If confirmed miss, remove. |

### Supplemental defects (not from rubric scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `stale-data` | P2 | `last_enrichment_date` is older than the `enrichment_staleness_days` threshold. Rubric score is unreliable. | Re-run enrichment on this account before acting on its quality tier. Do not remove solely because of this code. |
| `missing-field:{field}` | P2 | The named field was absent from the account record. The criterion that uses it was scored as C (worst case) by default. | Re-enrich the specific field. Re-audit after enrichment. |
| `low-intent` | P3 | Intent score from the provided `intent_scores` input is below the floor threshold. | Move to nurture or lower-frequency sequence. Do not assign to AE until intent rises. |
| `hd:{reason}` | P1 | Hard disqualifier triggered. `{reason}` is the specific rubric row that matched (e.g. `hd:sanctioned_country`, `hd:competitor`). | Remove immediately. Archive with `disqualified` tag and the `hd:{reason}` code for audit trail. |

### Positive flags (not defects — appear in the per-account row for awareness)

| Code | Definition | Action |
|---|---|---|
| `intent-spike` | Intent score is above the hot-intent threshold. Account is signaling active in-market behavior. | Prioritize for direct AE outreach regardless of rubric tier. Even a Q2 account with `intent-spike` warrants a personalized touch. |

## Severity definitions

- **P1 — Remove:** the account should not be in the active ABM list. Keeping it wastes budget and suppresses campaign performance metrics.
- **P2 — Remediate:** the account may be a valid target but needs data work or segmentation before it can be activated. Hold from campaign activation until the defect is resolved.
- **P3 — Informational:** the account can proceed, but the campaign team should calibrate expectations. No blocking action required.

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Sample audit output — for parser wiring

> A literal example of what the skill emits for a 5-account list. Use
> when wiring the downstream parser: Clay AI column → property mapping,
> Salesforce custom-code action → property writeback, CSV post-processor.
> The schema below is what the skill commits to; the values are illustrative.

## Full audit report

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment — last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by Sam Patel_
```

## Field contract for parsers

If you build a parser instead of consuming the markdown, these are the stable fields:

### List-level fields

- `list_name` — string
- `run_date` — ISO date string (YYYY-MM-DD)
- `list_quality_score` — integer, 0-100
- `total_accounts` — integer
- `q1_count`, `q2_count`, `q3_count`, `q4_count` — integers
- `recommendation` — string, one paragraph
- `defect_frequency[]` — array of `{defect_code, count, action}`
- `remediation_queue[]` — array of `{domain, rationale, estimated_tier_after_fix}`

### Per-account fields

- `domain` — string, lowercased
- `quality_tier` — enum: `Q1` / `Q2` / `Q3` / `Q4` / `disqualified`
- `score` — float, 0.0 to 10.0
- `defect_codes[]` — array of strings (defect code vocabulary from `references/2-defect-taxonomy.md`)
- `positive_flags[]` — array of strings (e.g. `intent-spike`)
- `rationale[]` — array of `{criterion, weight, tier, reason}` (same structure as lead-scoring skill)
- `data_notes` — string, e.g. "scored on potentially stale data (last_enrichment_date: 2025-02-14)"

### Salesforce CRM writeback mapping

| Audit field | Salesforce field | Field type |
|---|---|---|
| quality_tier | `ABM_Quality_Tier__c` | Picklist (Q1/Q2/Q3/Q4/disqualified) |
| defect_codes[] joined by `, ` | `ABM_Defect_Codes__c` | Text (255) |
| score | `ABM_ICP_Score__c` | Number (decimal, 1 place) |
| run_date | `ABM_Last_Audited__c` | Date |
| positive_flags[] joined by `, ` | `ABM_Intent_Flags__c` | Text (255) |