claude-skill

Audit an ABM list against an ICP rubric with Claude

Difficulty

intermédiaire

Setup time

30-60 min

For

revops

RevOps

Stack

Un Claude Skill qui prend une liste de comptes cibles ABM et une rubrique ICP et retourne un rapport de défauts par compte — chaque compte qui ne satisfait pas les critères reçoit un code de défaut issu d’une taxonomie définie (wrong-size, wrong-industry, wrong-geo, stale-data, low-intent, missing-field), un niveau de qualité (Q1 à Q4), un score de qualité de liste et une file de remédiation priorisée. Le bundle est disponible à apps/web/public/artifacts/abm-list-quality-audit-skill/ et contient SKILL.md ainsi que trois templates de référence que l’utilisateur adapte avant la première utilisation.

Il répond à la question que la plupart des campagnes ABM ignorent avant le lancement : « Des 300 comptes dans cette liste, combien correspondent réellement à notre ICP, et qu’est-ce qui ne va pas exactement chez ceux qui n’y correspondent pas ? » Sans cette réponse, le budget des plateformes ABM — 6sense, Demandbase, LinkedIn Matched Audiences — est dépensé sur des comptes que vous ne convertirez jamais, et les résultats décevants de la campagne sont attribués au message ou au canal plutôt qu’à la qualité de la liste.

Quand utiliser

Utilisez ce skill avant de charger une liste ABM dans une plateforme de médias payants, avant d’attribuer des comptes nommés à des AEs, et avant tout lancement de campagne dont la liste a été constituée il y a plus de 90 jours. Les listes ABM se dégradent plus vite que la plupart des équipes RevOps ne le réalisent : les données de headcount vieillissent, les étapes de financement changent, les entreprises sont rachetées, et la rubrique ICP elle-même évolue parfois sans que la liste soit réévaluée.

Le skill est également l’outil adapté pour l’hygiène trimestrielle des listes. Faites-le tourner sur l’ensemble de votre univers ABM — pas seulement les listes de campagne — pour trouver les comptes qui ont été ajoutés quand votre ICP était différent et qui n’ont pas été réévalués depuis. La table de fréquence des défauts vous indique quelles lacunes d’enrichissement sont les plus courantes dans votre univers, ce qui est actionnable pour le responsable du workflow d’enrichissement Clay.

Invoquez-le depuis :

Une table Clay où chaque ligne est un compte, déclenchée manuellement avant un lancement de campagne ou selon un cron trimestriel. Le skill écrit quality_tier et defect_codes dans deux colonnes Clay ; l’automatisation en aval peut filtrer sur ces colonnes pour supprimer les comptes Q3/Q4 des exports de campagne.
Une vérification pré-vol CSV avant import dans 6sense ou toute plateforme publicitaire ABM. Le passage de l’audit supprime les comptes pour lesquels vous auriez sinon payé — aux CPM ABM typiques ($20-40 par millier d’impressions), retirer 50 comptes hors-ICP d’une liste de 500 réduit le gaspillage de 10%.
Un trigger basé sur un rapport Salesforce sur des comptes nommés dans un segment, écrivant ABM_Quality_Tier__c et ABM_Defect_Codes__c sur l’enregistrement de compte.

Quand NE PAS utiliser

Ignorez ce skill lorsque :

Vous souhaitez noter des MQL inbound. L’audit est conçu pour les listes de comptes nommés outbound. Pour la triage de leads inbound, le skill lead-scoring-icp-rubric est l’outil adapté — il gère le flux lead unique et la logique d’escalade borderline qui compte pour l’inbound.
Votre rubrique ICP n’existe pas encore. Le skill audite par rapport à une rubrique que vous fournissez. Si vous n’avez pas eu la discussion sur l’ICP — dans quels secteurs, tranches de headcount et zones géographiques vous gagnez vraiment — cette conversation doit avoir lieu en premier. Faire tourner un audit contre une rubrique de placeholder produit une fausse impression de rigueur.
La liste nécessite une dédoublonnage, pas un audit. Si l’objectif est de supprimer les clients actuels, les concurrents, les comptes churned ou les contacts avec suppression GDPR, c’est une opération de filtrage, pas un audit ICP. Effectuez ces exclusions avant l’audit, sinon le skill dépensera des tokens à noter des entreprises dont vous savez déjà que vous voulez les exclure.
Vous avez besoin de générer la liste, pas de l’auditer. Le skill prend une liste existante en entrée. Il n’effectue pas de découverte TAM et ne génère pas de nouveaux comptes. Utilisez un workflow dédié de construction de listes — Clay plus critères ICP — pour produire la liste brute en premier.
La liste contient moins de 20 comptes. En dessous de cette taille, un RevOps ou AE expérimenté peut passer en revue chaque compte manuellement en moins d’une heure. Le coût de configuration du skill (configuration de la rubrique, personnalisation de la taxonomie de défauts) ne vaut pas la peine.

Configuration

La configuration prend 30-60 minutes en supposant que la rubrique ICP existe. La discussion sur la rubrique — aligner RevOps, le leadership GTM et un ou deux AEs sur ce que signifie réellement un secteur et une tranche de headcount de niveau A — prend plus longtemps et se déroule avant la configuration.

Installer le Skill. Copiez apps/web/public/artifacts/abm-list-quality-audit-skill/SKILL.md et le dossier references/ dans votre répertoire .claude/skills/abm-audit/, ou uploadez-le comme Skill dans claude.ai. Les champs name et description du frontmatter sont le déclencheur sur les prompts pertinents.
Configurer la rubrique ICP. Ouvrez references/1-icp-rubric-template.md. Si votre équipe utilise déjà le skill lead-scoring-icp-rubric, vous pouvez référencer le même fichier de rubrique — la structure est identique. Remplacez les lignes de placeholder par des critères réels, des pondérations (1-5) et des valeurs de tier (A / B / C). Renseignez la section des disqualifiants définitifs. Mettez à jour « Last edited » — le SHA-256 que le skill enregistre dans chaque pied de rapport garantit que les parties prenantes peuvent voir quand la rubrique a évolué.
Configurer la taxonomie de défauts. Ouvrez references/2-defect-taxonomy.md. Les codes de défaut eux-mêmes sont fixes — ne les renommez pas, car les parsers en aval utilisent les chaînes de code. Éditez la colonne « Remediation action » pour qu’elle corresponde au processus réel de votre équipe : quelle colonne Clay fournit le ré-enrichissement du headcount, qui possède l’abonnement ZoomInfo, quel segment prend en charge les comptes enterprise en débordement.
Préparer les scores d’intention (facultatif mais à forte valeur). Si vous utilisez 6sense ou Bombora, exportez une carte domaine → score d'intention pour votre univers de comptes et passez-la en entrée intent_scores. Cela ajoute des annotations low-intent et intent-spike par-dessus les scores de rubrique — le flag intent-spike est particulièrement précieux pour les comptes Q2 qui sont dans l’ICP mais borderline, car il les fait remonter pour priorisation même avant le ré-enrichissement.
Définir le seuil d’obsolescence de l’enrichissement. Mettez à jour enrichment_staleness_days selon l’agressivité avec laquelle votre couche d’enrichissement recycle les données. Clay + ZoomInfo se rafraîchit typiquement sur un cycle de 90 jours ; si vous exécutez un enrichissement mensuel, vous pouvez définir 45 jours. Cela pilote le code de défaut stale-data.
Tester sur une liste connue. Faites tourner le skill sur 20-30 comptes que vous connaissez bien — un mélange de clients actuels, de comptes churned et de prospects de qualité variable. Vérifiez que les niveaux de qualité correspondent à l’intuition de votre équipe. Si des comptes Q1 affichent des codes de défaut, la rubrique est mal calibrée. Si des comptes manifestement hors ICP obtiennent Q2, les disqualifiants définitifs ou les pondérations doivent être ajustés.

Ce que fait réellement le skill

Le skill exécute quatre étapes dans un ordre fixe.

Étape 1 — balayage des disqualifiants définitifs. Avant tout appel LLM, chaque compte est vérifié par rapport aux disqualifiants définitifs de la rubrique : pays sanctionné, secteur disqualifié, headcount en dessous du minimum absolu, comptes sur la liste d’exclusion explicite (concurrents, clients actuels). Les correspondances reçoivent le code de défaut hd:{raison} et le niveau de qualité disqualified. Cette étape est déterministe et s’exécute sur chaque compte en millisecondes. Pourquoi en premier : sur une liste de 500 comptes, il est courant que 5 à 15% soient des disqualifications immédiates — exécuter le scoring LLM sur ces comptes gaspille des tokens et ajoute de la latence sans apporter d’information.

Étape 2 — scoring de la rubrique ICP par compte. Les comptes qui ont passé le balayage des disqualifiants définitifs sont notés sur chaque critère de la rubrique. Pour chaque critère, le modèle émet un tier (A / B / C), une pondération (issue de la rubrique) et une justification d’une phrase citant la ligne de la rubrique. La somme pondérée correspond à un niveau de qualité : Q1 (score ≥ 8,0), Q2 (6,0-7,99), Q3 (4,0-5,99), Q4 (< 4,0). Les critères défaillants génèrent les codes de défaut correspondants — un score de critère C sur le headcount d’un compte en dessous du seuil du tier B génère wrong-size:too-small.

Pourquoi par critère plutôt qu’un score global : les codes de défaut qui alimentent la file de remédiation nécessitent de savoir quel critère spécifique a échoué, pas seulement que le score global était bas. Un compte Q3 avec missing-field:tech_stack est une tâche de remédiation différente d’un compte Q3 avec wrong-industry — le premier a besoin d’enrichissement, le second doit être supprimé.

Étape 3 — détection de défauts supplémentaires. Après le scoring de la rubrique, le skill vérifie les défauts non couverts par la rubrique : stale-data (enrichissement plus ancien que le seuil), missing-field:{champ} (critères qui n’ont pu être notés), low-intent et intent-spike issus des scores d’intention fournis. Le flag intent-spike peut apparaître même sur des comptes Q2 — il fait remonter des comptes où le comportement in-market devrait primer sur le score de rubrique borderline et déclencher un contact direct de l’AE quand même.

Étape 4 — agrégation au niveau de la liste. Après le scoring par compte, le skill calcule le score de qualité de liste (Q1% + Q2% - Q3% - 2×Q4%, mis à l’échelle sur 100), la table de fréquence des défauts et la file de remédiation. La file de remédiation est triée par gain estimé lors du re-audit : les comptes les plus susceptibles de devenir Q1 après ré-enrichissement apparaissent en premier. Un score de qualité de liste inférieur à 30 est le signal go/no-go du skill — la section de recommandation dira « Ne pas lancer avant que les comptes Q3/Q4 soient remédiés ou supprimés. »

Réalité des coûts

Le coût en tokens par compte dépend de la taille de la rubrique et de la quantité de données de compte fournies. Pour une rubrique typique à 6 critères avec output structuré par critère et un enregistrement de compte de 300-500 tokens de données, attendez environ 1 200-2 000 tokens d’entrée et 300-500 tokens de sortie par compte. Aux tarifs de Claude Sonnet 4.x (environ $3 par million de tokens d’entrée et $15 par million de tokens de sortie début 2026), cela représente $0,008-0,015 par compte.

Un audit pré-campagne de 500 comptes coûte $4-8 en tokens Claude. Un passage trimestriel d’hygiène sur un univers ABM de 2 000 comptes coûte $16-30. Ces montants sont inférieurs au coût d’une seule séquence AE mal routée. Le coût hors tokens est plus important : configurer correctement la rubrique et la taxonomie de défauts prend une session de 60-90 minutes ; planifiez-la.

Le coût en tokens par compte est inférieur à celui du skill de scoring de leads car les comptes ABM disposent typiquement de données structurées plus riches (moins de champs manquants) et les codes de défaut sont plus compacts qu’une justification complète par critère. Si vos comptes ont beaucoup de champs manquants, plus de traitement tombe sur l’étape de défaut supplémentaire, qui est déterministe et gratuite.

La mise en cache des prompts des fichiers de rubrique et de taxonomie de défauts est intéressante à l’échelle — sur un audit de 500 comptes, la rubrique est chargée une fois et mise en cache sur l’ensemble du lot. Sur une vérification ponctuelle de 5 comptes, cela ne fait pas de différence.

Métrique de succès

La métrique principale pour l’audit est la tendance du score de qualité de liste : exécutez l’audit sur le même univers ABM chaque trimestre et suivez si le score de qualité de liste augmente. Un score en hausse signifie que votre cadence d’enrichissement fonctionne, votre rubrique est stable et votre processus de construction de liste s’est resserré. Un score en baisse — ou un score qui reste stable malgré les efforts de remédiation — signifie que la rubrique a évolué ou que la source d’enrichissement n’est pas fiable.

Métrique secondaire : taux de conversion de campagne ABM par niveau de qualité. Après 90 jours de campagnes contre des listes auditées, comparez le taux de conversion en opportunité pour les comptes Q1 vs Q2 vs les comptes remédiés depuis Q3 avant d’être inclus. Q1 devrait convertir à un taux plus élevé que Q2, et Q2 après remédiation devrait convertir à un taux plus élevé que Q3 non audité. Si aucune différence de conversion n’apparaît entre les niveaux, la rubrique n’est pas prédictive et doit être rediscutée.

Modes d’échec

Codes de défaut qui incriminent la rubrique, pas la liste. Si 35% de votre liste reçoit wrong-size:too-small, le problème est souvent le plancher de headcount dans la rubrique, pas la liste. La rubrique a peut-être été définie quand votre motion était purement enterprise et n’a jamais été mise à jour depuis l’ouverture d’un segment SMB. Agir sur ces codes de défaut en supprimant 35% de la liste est le mauvais réflexe ; réviser la rubrique est la bonne réponse. Guard : après chaque audit, vérifiez si un seul code de défaut s’applique à plus de 25% des comptes. Si c’est le cas, examinez le critère de rubrique qui génère ce code avant de remédier la liste. La table de fréquence des défauts dans le résultat de l’audit rend cette vérification facile — le code le plus courant est toujours la première ligne du tableau.
Enrichissement obsolète produisant des faux négatifs sur de bons comptes. Un compte avec un last_enrichment_date datant de 14 mois peut avoir triplé son headcount, levé une Série B et ajouté Salesforce à son tech stack depuis la collecte de ces données. Le verdict Q4 du skill sur ce compte n’est pas un verdict sur l’entreprise — c’est un verdict sur votre cadence d’enrichissement. Supprimer ou déprioriser ces comptes avant de les ré-enrichir fait perdre de vraie pipeline. Guard : le skill ajoute stale-data à tout compte dont l’enrichissement dépasse le seuil d’obsolescence et note « scored on potentially stale data » dans la justification. La file de remédiation place les comptes stale-data avec fort potentiel de score de rubrique en tête. La règle immuable : ne jamais supprimer un compte de la liste uniquement à cause de stale-data ; toujours ré-enrichir d’abord.
Inflation du score d’intention par le comportement d’un seul utilisateur. Une entreprise dans un segment « haute intention » de 6sense peut s’y trouver parce qu’un analyste junior de l’entreprise a lu trois articles de blog. Signaler cette entreprise comme intent-spike et la router vers un contact direct AE sur la base de ce signal est un faux positif qui consume du temps AE. Guard : quand des intent_scores sont fournis, le skill affiche le score d’intention brut et la source à côté du flag intent-spike. La recommandation dans le résultat du skill : avant d’agir sur un signal intent-spike, vérifiez avec 6sense ou votre plateforme ABM que l’activité d’intention provient de personas du comité d’achat — niveau directeur et au-dessus dans les domaines fonctionnels pertinents — et non d’un unique utilisateur à faible autorité.
Dérive de la rubrique invalidant les comparaisons historiques d’audit. Si la rubrique change entre l’audit Q2 et l’audit Q3, les scores de qualité de liste ne sont pas comparables — un score en hausse peut simplement refléter une rubrique plus souple, pas une amélioration réelle de la liste. Guard : le skill enregistre le SHA-256 de la rubrique dans chaque pied d’audit. Pour comparer les scores de qualité de liste d’un trimestre à l’autre, confirmez que le SHA-256 de la rubrique est identique. Si la rubrique a changé, ré-exécutez la liste du trimestre précédent contre la nouvelle rubrique avant de faire des comparaisons. La date « Last edited » dans le fichier de rubrique et le rappel trimestriel dans le calendrier pour réviser la rubrique agissent conjointement pour rendre la dérive visible avant qu’elle ne fausse la tendance.

vs alternatives

vs révision RevOps manuelle. Pour une liste de moins de 50 comptes, un analyste RevOps expérimenté avec la rubrique ICP ouverte peut revoir chaque compte manuellement en 2-3 heures et produire un résultat mieux calibré que le skill — les humains repèrent les cas limites, comme « cette entreprise a un code SIC étrange mais son produit réel est clairement dans notre ICP », que le skill ratera. Au-delà de 150 comptes, la révision manuelle devient inconsistante : l’intuition ICP de l’analyste dérive entre le premier et le 130ème compte. Le skill applique la rubrique de manière cohérente quelle que soit la taille de la liste.

vs le grading de comptes intégré de 6sense. 6sense fournit un score de fit de compte basé sur son modèle ICP propriétaire, entraîné sur des entreprises de votre CRM avec un historique d’engagement positif. Il est utile une fois que vous avez suffisamment d’historique CRM pour que 6sense puisse apprendre (typiquement 50-100 comptes gagnés). Pour les équipes en dessous de ce seuil, le modèle de fit de 6sense est sous-entraîné et bruité. Ce skill fonctionne dès le premier jour car la rubrique est rédigée manuellement. La contrepartie : le modèle de 6sense capte des patterns que vous n’avez pas explicitement consignés ; ce skill ne sait que ce que vous lui avez dit. Pour les équipes avec 50+ comptes gagnés, utilisez les deux — la note de 6sense pour « ce qui me surprend » et les codes de défaut de ce skill pour « ce qui ne va pas précisément chez les comptes Q3 ».

vs une matrice de scoring ICP dans un tableur. De nombreuses équipes RevOps ont un tableur où elles évaluent chaque compte manuellement par rapport aux critères ICP. L’approche tableur s’effondre à l’échelle (la cohérence chute au-delà de 50 comptes), ne produit pas de taxonomie de défauts (elle donne le score, pas pourquoi il est mauvais), et devient obsolète dès que la rubrique change car personne ne met à jour toutes les lignes précédemment notées. Ce skill applique la rubrique de manière cohérente, nomme le défaut spécifique, et le mécanisme SHA-256 garantit que vous savez quand la rubrique a évolué. Le tableur est l’outil adapté pour les 20 premiers comptes ; le skill est l’outil adapté ensuite.

Modifier cette page sur GitHub

Files in this artifact

Download all (.zip)

---
name: abm-list-quality-audit
description: Audit an ABM target list against an explicit ICP rubric and return a defect report for every account that fails. Produces a per-account defect taxonomy (wrong-size, wrong-industry, wrong-geo, wrong-funding, tech-mismatch, stale-data, low-intent, missing-field), a list-level quality score, and a prioritized remediation queue. Use before any ABM campaign goes live — not as a substitute for ICP strategy work.
---

# ABM list quality audit

## When to invoke

Invoke before launching any ABM campaign, before loading a list into a paid-media ABM platform, or before assigning named accounts to AEs. The skill takes a structured account list and your ICP rubric and returns a per-account defect report plus a list-level quality score.

The skill is also useful for quarterly list hygiene: run it over your existing ABM universe to find accounts that were added months ago and no longer match the current ICP, or accounts where enrichment has gone stale.

Invoke from:

- A **Clay table** where each row is an account, triggered manually or on a quarterly schedule. The skill writes defect codes and a quality tier back to two columns.
- A **CSV pre-flight check** before import into 6sense, Demandbase, or any ABM advertising platform that charges per account or per impression — running the audit first removes accounts you would pay to target and never convert.
- A **Salesforce report-based trigger** over named accounts in a specified segment, via a custom-code action that calls the skill and writes `ABM_Quality_Tier__c` and `ABM_Defect_Codes__c` back to the account record.

Do NOT invoke this skill for:

- **Scoring individual inbound leads.** The audit is designed for outbound named-account lists, not for triage of inbound MQLs. For inbound scoring, use the lead-scoring-icp-rubric skill.
- **Replacing the ICP strategy session.** The skill audits against a rubric you provide. If the rubric is a proxy for last year's customers, the audit will reproduce last year's biases. Have the ICP argument with your RevOps and GTM leadership before running the audit.
- **Generating net-new accounts.** The skill audits an existing list. It does not generate new accounts or run discovery on the TAM. Use a dedicated list-building workflow (Clay + ICP criteria) to generate the raw list first.
- **Suppression list management.** If the goal is to remove churned customers, competitors, or current customers from the list, that is deduplication, not auditing. Run those exclusion checks before invoking the skill.

## Inputs

Required:

- `account_list` — a structured list of account records. Minimum fields per account: `company_name`, `company_domain`. Strongly preferred: `industry`, `headcount`, `country`, `revenue_band`, `tech_stack` (array), `funding_stage`, `last_enrichment_date`.
- `rubric` — path to or inline contents of the ICP rubric markdown (see `references/1-icp-rubric-template.md`). Must contain explicit criterion + weight + tier-value rows. If the rubric has no weights, the skill refuses to run.

Optional:

- `intent_scores` — a map of `company_domain → intent_score` from 6sense, Bombora, or your ABM platform. When provided, the skill adds a `low-intent` defect code for accounts below your defined intent floor, and an `intent-spike` positive flag for accounts above your hot-intent threshold.
- `enrichment_staleness_days` — integer, default 90. Accounts where `last_enrichment_date` is older than this value receive a `stale-data` defect code. Adjust to match how aggressively your enrichment layer (Clay, ZoomInfo, Apollo) recycles data.
- `list_name` — string. Used to label the audit report. If omitted, defaults to `"Unnamed list — {run_date}"`.

## Reference files

Always load these before running the audit:

- `references/1-icp-rubric-template.md` — the ICP rubric. Same structure as the lead-scoring skill's rubric; shared between the two skills if your team uses both. Weights and tier values must be explicit.
- `references/2-defect-taxonomy.md` — the full defect code vocabulary with definitions, severity levels (P1 / P2 / P3), and the remediation action for each code. Edit this once with your RevOps lead before first use; the codes in the audit output are only as useful as the definitions in this file.
- `references/3-sample-audit-output.md` — a literal example of the full audit report for a 5-account list. Use when wiring downstream parsers or building the CRM writeback.

## Method

The skill runs four steps in order.

### 1. Hard disqualifier sweep (no LLM)

Before any LLM call, check each account against the rubric's hard disqualifiers: sanctioned country, disqualified industry, headcount below floor. Accounts that hit a hard disqualifier receive defect code `hd:{reason}` (e.g. `hd:sanctioned_country`) and a quality tier of `disqualified`. These are deterministic and cheap; they run first so the LLM does not burn tokens on them.

Why deterministic first: same reason as lead scoring — speed and reliability. A hard disqualifier check on 500 accounts takes milliseconds and never hallucinates.

### 2. Per-account ICP rubric scoring

For each account that cleared the hard disqualifier sweep, score against the ICP rubric using the same per-criterion method as the lead-scoring skill (explicit tier + weight + rationale per criterion). The weighted sum maps to a quality tier:

- **Q1** — score ≥ 8.0: in-ICP, meets criteria. No defect codes from rubric scoring.
- **Q2** — score 6.0-7.99: in-ICP with gaps. Defect codes name the specific failing criteria.
- **Q3** — score 4.0-5.99: borderline. Multiple defect codes; recommend enrichment and re-audit before including.
- **Q4** — score < 4.0: out-of-ICP. Recommend removal from the active list; flag for archive.

Why explicit tier thresholds rather than "let the model decide": same reason as lead scoring — the rubric is the source of truth, and the model's job is to apply it, not to re-weight it.

### 3. Supplemental defect detection

After rubric scoring, run supplemental checks that are not covered by the rubric criteria:

- **`stale-data`**: `last_enrichment_date` is older than `enrichment_staleness_days`. The account's rubric score is suspect because the underlying data may be wrong.
- **`missing-field`**: one or more rubric criteria could not be scored because the field was missing from the account record. List the missing field names.
- **`low-intent`**: `intent_scores[domain]` is below the floor defined in the rubric or passed as input. Applied on top of rubric score — a Q1 account with low intent is still in-ICP but is not hot right now.
- **`intent-spike`**: `intent_scores[domain]` is above the hot-intent threshold. A positive flag, not a defect; surfaced to help prioritize outreach even if the rubric score is only Q2.

### 4. List-level quality report and remediation queue

After per-account scoring, aggregate:

- **List quality score**: Q1% + Q2% - Q3% - 2×Q4%. This is a synthetic score intended to give a single number for "how good is this list" at a glance. A score above 60 means the list is predominantly in-ICP; below 30 means the list needs significant remediation before use.
- **Defect frequency table**: counts of each defect code across the list. The most common defect code tells you the single most valuable enrichment or segmentation fix.
- **Remediation queue**: the Q2 and Q3 accounts with `missing-field` or `stale-data` codes, ordered by estimated re-audit lift (accounts most likely to become Q1 after re-enrichment). This is the queue to hand to whoever owns enrichment.

Why a list-level score: individual account scores are useful for routing; the list-level score is useful for the ABM campaign go/no-go decision. If the list score is below 30, the campaign should not launch — the target list is too weak to justify the ABM platform spend.

## Output format

Literal markdown the skill emits for a 5-account list:

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment on accounts with last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by RevOps_
```

## Watch-outs

- **Defect codes that indict the rubric, not the account.** If 40% of the list has `wrong-size` codes, the problem is often not the list — it is a headcount floor in the rubric that was set when the company was targeting larger enterprises and was never updated after the SMB segment was opened. **Guard:** after every audit, check whether any single defect code applies to more than 25% of accounts. If so, review the rubric criterion that generates that code before remediating the list. The list might be right and the rubric wrong.
- **Stale enrichment masking real ICP fit.** An account's `last_enrichment_date` of 14 months ago means its headcount, funding stage, and tech stack data may all be wrong. A Q4 score on stale data is not a verdict on the account — it is a verdict on your enrichment cadence. **Guard:** the skill adds `stale-data` to any account where enrichment is older than the `enrichment_staleness_days` threshold, and the per-account rationale notes "scored on potentially stale data" for any such account. Do not remove Q4 + `stale-data` accounts; re-enrich them first and re-audit.
- **Intent score inflation from brand-aware accounts.** An account in a 6sense high-intent segment may be there because of one analyst at the company who reads your blog weekly — not because the buying committee is in-market. **Guard:** when `intent_scores` are provided, the skill shows the raw intent score alongside the `intent-spike` flag and names the intent source. Before acting on an `intent-spike` account, verify the intent signal is from buying-committee personas, not from a single low-authority user.

# ICP rubric — TEMPLATE (ABM audit)

> Replace this template's contents with your team's actual ICP rubric.
> The ABM list audit skill scores each account against this rubric.
> Vague rows (no weights, no tier values) cause the skill to refuse the run.
>
> This file can be shared with the lead-scoring-icp-rubric skill — the
> rubric structure is identical. If your team uses both skills, maintain
> one rubric file and reference it from both.

## How the skill reads this file

- Each row in "Criteria" must have an explicit `weight` (1-5) and three tier values
  (A / B / C). Malformed rows cause the skill to return an error.
- "Hard disqualifiers" run as deterministic checks before any LLM call. A single
  hit drops the account to `disqualified` regardless of other criteria.
- "Intent thresholds" are optional — only used when `intent_scores` is passed
  as input. Set these to match your ABM platform's scoring bands.
- The "Last edited" line is hashed into the SHA-256 recorded in the audit footer.

## Criteria

| Criterion | Weight | A (best fit) | B (stretch) | C (poor fit) |
|---|---|---|---|---|
| Industry | 5 | {industries you win in, e.g. Vertical SaaS, FinTech} | {adjacent industries} | {everything else} |
| Headcount | 4 | {core range, e.g. 200-2000} | {stretch range, e.g. 50-200 or 2000-5000} | {below/above stretch} |
| Geo | 3 | {primary regions, e.g. US, UK, DACH} | {secondary regions} | {unsupported regions} |
| Tech stack | 4 | {signals of fit, e.g. Salesforce + HubSpot present} | {one fit signal present} | {no fit signals or competing system} |
| Funding stage | 2 | {preferred stages, e.g. Series B-D, public mid-cap} | {adjacent stages} | {unfit, e.g. pre-seed or mature enterprise} |
| Revenue band | 3 | {ARR or revenue band that matches your ACV, e.g. $10M-$100M ARR} | {adjacent band} | {below minimum or above ceiling} |

## Hard disqualifiers

Single signals that drop an account to `disqualified` regardless of other criteria.
Run as deterministic checks before LLM scoring.

- `country in [{sanctioned or unsupported regions}]`
- `industry in [{disqualified industries — e.g. adult content, gambling if you do not serve them}]`
- `headcount < {absolute floor, e.g. 25}` (if you have one)
- `company_domain in [{explicit exclusion list — competitors, current customers, churned accounts}]`

## Intent thresholds (optional — only used when intent_scores provided)

Used to assign `low-intent` or `intent-spike` flags on top of the rubric score.

| 6sense / Bombora intent score | Flag applied |
|---|---|
| ≥ {hot threshold, e.g. 75} | `intent-spike` |
| {floor, e.g. 35} — {hot threshold - 1} | no flag (normal) |
| < {floor, e.g. 35} | `low-intent` |

## Quality tier thresholds

| Weighted score | Quality tier |
|---|---|
| 8.0 - 10.0 | Q1 (in-ICP, no rubric defects) |
| 6.0 - 7.99 | Q2 (in-ICP with gaps) |
| 4.0 - 5.99 | Q3 (borderline — remediate before use) |
| < 4.0 | Q4 (out-of-ICP — recommend removal) |

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Defect taxonomy — TEMPLATE

> This file defines every defect code the ABM list audit skill can assign.
> Edit the "Remediation action" column to match your team's actual processes
> before first use. The codes themselves are fixed — do not rename them;
> downstream parsers (CRM writeback, Clay columns) key on the code strings.

## How the skill reads this file

- Each defect code has a `severity` (P1 / P2 / P3). P1 defects are show-stoppers
  that mean the account should be removed or quarantined from the campaign until
  fixed. P2 defects are remediable. P3 defects are informational — the account
  can proceed, but the ABM or AE team should be aware.
- The skill emits defect codes in the per-account row and the defect-frequency
  table. It does not emit the full definition — that lives here for the human
  reviewer.

## Defect codes

### Rubric-sourced defects (from ICP scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `wrong-industry` | P1 | Account's industry is in the C-tier or disqualified row of the rubric. | Remove from active list. Archive with `out-of-icp` tag. |
| `wrong-size:too-small` | P1 | Headcount is below the rubric's B-tier floor. | Remove unless a specific exemption applies (e.g. fast-growing startup with known expansion intent). |
| `wrong-size:too-large` | P2 | Headcount exceeds the rubric's B-tier ceiling. | Flag for enterprise segment or remove from SMB/mid-market campaign. |
| `wrong-geo` | P1 | Account's HQ region is not in the rubric's supported geo tiers. | Remove from geo-targeted campaign; keep in global campaigns if you have capacity to serve. |
| `wrong-funding` | P2 | Funding stage is in the C-tier row. | Move to a different campaign segment (pre-series A nurture vs. growth-stage ABM). |
| `tech-mismatch` | P2 | Tech stack has no fit signals from the rubric's tech-stack criterion. | Re-enrich tech stack; confirm via BuiltWith or Clay. If confirmed miss, remove. |

### Supplemental defects (not from rubric scoring)

| Code | Severity | Definition | Remediation action |
|---|---|---|---|
| `stale-data` | P2 | `last_enrichment_date` is older than the `enrichment_staleness_days` threshold. Rubric score is unreliable. | Re-run enrichment on this account before acting on its quality tier. Do not remove solely because of this code. |
| `missing-field:{field}` | P2 | The named field was absent from the account record. The criterion that uses it was scored as C (worst case) by default. | Re-enrich the specific field. Re-audit after enrichment. |
| `low-intent` | P3 | Intent score from the provided `intent_scores` input is below the floor threshold. | Move to nurture or lower-frequency sequence. Do not assign to AE until intent rises. |
| `hd:{reason}` | P1 | Hard disqualifier triggered. `{reason}` is the specific rubric row that matched (e.g. `hd:sanctioned_country`, `hd:competitor`). | Remove immediately. Archive with `disqualified` tag and the `hd:{reason}` code for audit trail. |

### Positive flags (not defects — appear in the per-account row for awareness)

| Code | Definition | Action |
|---|---|---|
| `intent-spike` | Intent score is above the hot-intent threshold. Account is signaling active in-market behavior. | Prioritize for direct AE outreach regardless of rubric tier. Even a Q2 account with `intent-spike` warrants a personalized touch. |

## Severity definitions

- **P1 — Remove:** the account should not be in the active ABM list. Keeping it wastes budget and suppresses campaign performance metrics.
- **P2 — Remediate:** the account may be a valid target but needs data work or segmentation before it can be activated. Hold from campaign activation until the defect is resolved.
- **P3 — Informational:** the account can proceed, but the campaign team should calibrate expectations. No blocking action required.

## Last edited

{YYYY-MM-DD} — by {RevOps owner name}

# Sample audit output — for parser wiring

> A literal example of what the skill emits for a 5-account list. Use
> when wiring the downstream parser: Clay AI column → property mapping,
> Salesforce custom-code action → property writeback, CSV post-processor.
> The schema below is what the skill commits to; the values are illustrative.

## Full audit report

```markdown
# ABM list audit — Q3 2026 DACH expansion (run 2026-05-23)

**List quality score:** 52 / 100
**Accounts audited:** 5
**Breakdown:** Q1: 1 · Q2: 2 · Q3: 1 · Q4: 1

## Recommendation

List is marginal (score 52). Do not launch until Q3/Q4 accounts are remediated or removed.
Priority: re-enrich 2 Q2 accounts with missing headcount data; remove 1 Q4 account.

## Per-account results

| Domain | Quality tier | Score | Defect codes |
|---|---|---|---|
| northwind.com | Q1 | 8.6 | none |
| tailspin.io | Q2 | 7.1 | missing-field:headcount, stale-data |
| fabrikam.de | Q2 | 6.3 | wrong-size:too-small, wrong-funding, low-intent |
| contoso.com | Q3 | 5.0 | wrong-industry, tech-mismatch, missing-field:tech_stack |
| adventure-works.com | Q4 | 3.2 | wrong-size:too-large, wrong-geo, missing-field:revenue |

## Defect frequency table

| Defect code | Count | Action |
|---|---|---|
| missing-field:headcount | 2 | Re-enrich via Clay ZoomInfo column |
| stale-data | 2 | Re-run enrichment — last_enrichment_date > 90 days |
| wrong-size | 2 | Review headcount band in rubric — may be over-restricted |
| wrong-industry | 1 | Confirm industry mapping — SIC code may be miscategorized |
| wrong-geo | 1 | Remove if DACH-only campaign; keep for global list |
| wrong-funding | 1 | Move to pre-series A nurture vs. growth-stage ABM segment |
| tech-mismatch | 1 | Re-enrich tech stack via BuiltWith or Clay; remove if confirmed miss |
| low-intent | 1 | Move to nurture; re-activate when intent signal appears |
| missing-field:tech_stack | 1 | Re-enrich via BuiltWith or Clay tech-stack column |

## Remediation queue (by re-audit lift)

1. tailspin.io — add headcount; re-enrich; likely Q1 after fix.
2. fabrikam.de — low-intent flag only; already in-ICP. Activate when intent spikes.
3. contoso.com — re-enrich tech_stack; confirm industry; may move to Q2.

---
_Rubric SHA-256: 4f9c...a812 | Last edited 2026-05-01 by Sam Patel_
```

## Field contract for parsers

If you build a parser instead of consuming the markdown, these are the stable fields:

### List-level fields

- `list_name` — string
- `run_date` — ISO date string (YYYY-MM-DD)
- `list_quality_score` — integer, 0-100
- `total_accounts` — integer
- `q1_count`, `q2_count`, `q3_count`, `q4_count` — integers
- `recommendation` — string, one paragraph
- `defect_frequency[]` — array of `{defect_code, count, action}`
- `remediation_queue[]` — array of `{domain, rationale, estimated_tier_after_fix}`

### Per-account fields

- `domain` — string, lowercased
- `quality_tier` — enum: `Q1` / `Q2` / `Q3` / `Q4` / `disqualified`
- `score` — float, 0.0 to 10.0
- `defect_codes[]` — array of strings (defect code vocabulary from `references/2-defect-taxonomy.md`)
- `positive_flags[]` — array of strings (e.g. `intent-spike`)
- `rationale[]` — array of `{criterion, weight, tier, reason}` (same structure as lead-scoring skill)
- `data_notes` — string, e.g. "scored on potentially stale data (last_enrichment_date: 2025-02-14)"

### Salesforce CRM writeback mapping

| Audit field | Salesforce field | Field type |
|---|---|---|
| quality_tier | `ABM_Quality_Tier__c` | Picklist (Q1/Q2/Q3/Q4/disqualified) |
| defect_codes[] joined by `, ` | `ABM_Defect_Codes__c` | Text (255) |
| score | `ABM_ICP_Score__c` | Number (decimal, 1 place) |
| run_date | `ABM_Last_Audited__c` | Date |
| positive_flags[] joined by `, ` | `ABM_Intent_Flags__c` | Text (255) |