Un pack de prompts structurés pour Claude qui transforment un rubric de poste en un ensemble gradué de questions d’entretien : comportementales (sonder le comportement passé dans des conditions nommées), situationnelles (réponse à un scénario hypothétique), analyse approfondie technique (creuser une compétence déclarée), et questions inverses (ce à quoi s’attendre du candidat, avec ce que les réponses signalent). Chaque question est taguée avec la dimension du rubric qu’elle sonde, l’ancre qu’elle différencie, et la relance à poser si la réponse est trop préparée. Remplace l’entretien « on improvise » par une bibliothèque de questions que le panel ouvre vraiment avant l’appel.
Le panel d’entretien inclut des intervieweurs qui n’interviewent pas régulièrement — ingénieurs, hiring managers, IC leads — et qui ont besoin d’entrer avec des questions préparées calibrées sur le rubric.
Vous voulez de la cohérence entre les panelistes. Chaque paneliste pose des variantes des mêmes questions d’ancre, pour que le débrief compare des notes sur les mêmes dimensions.
Vous calibrez un intervieweur junior. Les annotations « relance si réponse préparée » du pack rendent le signal plus profond visible.
Quand NE PAS l’utiliser
Entretiens culturels non structurés où l’objectif est le rapport, pas le signal. Conversation différente. Le pack est pour les tours de collecte de signal.
Entretiens de code en direct. Artifact différent (format code-et-dialogue). Le workflow d’évaluation de take-home gère l’évaluation d’artifacts ; le code en direct est son propre workflow.
Rubrics qui n’ont pas passé une vérification de conformité — les prompts du pack produiront des questions qui sondent les dimensions du rubric, y compris les mauvaises. Faites d’abord passer le rubric par le cadre de l’auditeur de slate diversifiée ou le pré-vol de conformité du constructeur de recherche booléenne.
Questions que vous voulez verrouiller pour l’année. Le pack se régénère par poste et par rubric. Si votre entreprise a besoin de questions figées et révisées pour la conformité légale (certains secteurs l’exigent), utilisez le pack comme point de départ et verrouillez l’output, pas les prompts eux-mêmes.
Configuration
Déposez le bundle. Placez apps/web/public/artifacts/interview-question-bank-prompt-pack/interview-question-bank-prompt-pack.md quelque part où vos intervieweurs peuvent le lire (Notion, le wiki d’équipe, les fichiers de connaissances d’un projet Claude interne).
Rédigez le rubric du poste. Le même rubric qu’utilisent les workflows d’entretien téléphonique et de référence. Sans lui, les prompts n’ont rien à sonder.
Créez un projet Claude par poste. Déposez le rubric comme connaissance du projet. Sauvegardez chaque prompt du pack comme prompt sauvegardé dans le projet.
Générez les questions. Exécutez chaque prompt contre le rubric. Copiez les questions dans le document de préparation à l’entretien du panel. Taguez chaque question avec le paneliste qui la posera.
Révisez pour le ton et l’adéquation. Les prompts produisent des questions compétentes. Le hiring manager les modifie pour la voix de l’entreprise et les spécificités du poste.
Ce que le pack contient
Douze prompts, en trois niveaux.
Niveau 1 — Comportemental (sonder le comportement passé dans des conditions nommées)
Les questions comportementales sont les piliers des entretiens structurés. Le pack génère des questions dans la forme STAR (Situation, Tâche, Action, Résultat) par dimension de rubric, avec une relance pour chacune qui creuse au-delà de la réponse préparée.
B1. Produire 3 questions comportementales par dimension de rubric. Chacune taguée avec la dimension et l’ancre du rubric (1-5) qu’elle discrimine.
B2. Pour chaque question comportementale, produire une relance pour le cas où la réponse est trop préparée (le paneliste peut dire que le candidat a préparé exactement cette histoire). La relance demande un exemple différent, un contrefactuel ou une étape que le candidat a sautée.
B3. Produire 3 questions comportementales qui sondent le négatif — quand le candidat a échoué sur la dimension. Réduire préventivement la non-réponse de type « je suis perfectionniste ».
Niveau 2 — Situationnel (réponse à un scénario hypothétique)
Les questions situationnelles sondent comment le candidat gérerait un scénario. Moins fiables que les comportementales mais utiles pour les questions de périmètre senior où le candidat n’a peut-être pas de situation directement comparable passée.
S1. Produire 2 scénarios situationnels par dimension de rubric au niveau du rôle. Chaque scénario est calibré au niveau (problèmes de périmètre IC Senior, pas Staff ; problèmes de périmètre Manager, pas Directeur).
S2. Pour chaque scénario, lister les dimensions de réponse que le paneliste doit écouter (critères de décision spécifiques, ce qu’ils demandent avant de décider, ce qu’ils évitent).
Niveau 3 — Analyse approfondie technique / craft
Pour les postes où il y a un craft (ingénierie, design, méthodologie de vente), ce niveau produit des questions qui creusent dans la compétence déclarée du candidat.
T1. Étant donné les compétences must_have du rubric, produire 5 questions d’analyse approfondie par compétence. Chacune étiquetée « superficielle » (vérification de base que le candidat a la compétence) ou « profonde » (sonder les limites de la compétence).
T2. Pour chaque question d’analyse approfondie, lister 3 relances que le paneliste pose si la première réponse du candidat est correcte mais en surface.
T3. Produire 2 questions qui font remonter une lacune dans la compétence plutôt que de confirmer sa présence. (« Dites-moi un moment où vous deviez utiliser X mais n’aviez pas Y. » Sonde si le candidat remarque la limite.)
Niveau 4 — Questions inverses (ce que le candidat pose en retour)
Les candidats forts posent des questions substantielles. Les candidats faibles posent « c’est quoi la culture ? ». Ce niveau aide le paneliste à lire les questions du candidat.
R1. Produire une liste de 10 questions substantielles qu’un candidat fort pourrait poser, groupées par ce que chaque question signale (le candidat pense à X, préfère Y, cherche Z).
R2. Produire une liste de 10 questions faibles / génériques et ce que chaque question signale (le candidat n’a pas fait de recherche, est anxieux sur les bases, pêche une réponse spécifique).
Réalité des coûts
Par génération de questions pour un poste, sur Claude Sonnet 4.6 :
Tokens LLM — typiquement 5-10k d’entrée (rubric + prompt + instructions du skill) et 3-6k de sortie (la bibliothèque de questions générée) par invocation de prompt. Total par poste : environ 0,30-0,60 $ si tous les 12 prompts sont exécutés.
Temps des intervieweurs — le gain. Rédiger manuellement une bibliothèque de questions comportementales par poste prend 4-8 heures ; le pack livre une bibliothèque de départ en 30 minutes de prompting et édition.
Temps de configuration — 15 minutes pour configurer le projet Claude par poste. La configuration initiale du pack pour l’entreprise (sauvegarde des prompts, intégration avec le wiki d’équipe) est une tâche ponctuelle de 30-60 minutes.
Métriques de succès
Suivez trois éléments, mensuellement :
Recoupement de questions entre panelistes — part des questions posées par ≥2 panelistes dans le même loop. Devrait être ≥40 % sur un pack calibré (les dimensions du rubric SONT le fil conducteur) ; en dessous de 25 % signifie que les panelistes improvisent.
Durée du débrief — temps réel de « dernier entretien terminé » à « décision enregistrée ». Devrait baisser d’environ 30 % car les debriefs sont ancrés sur les mêmes dimensions.
Confiance des panelistes dans leurs notes — qualitatif ; demandez aux panelistes « êtes-vous entré avec une bibliothèque de questions ? » La réponse honnête dans la plupart des entreprises est « non, on a improvisé » — la métrique de succès du pack est de faire passer ça à « oui, et ça a aidé ».
Alternatives
vs bibliothèque de questions rédigée manuellement. La rédaction manuelle est le bon choix pour une petite équipe qui itère rapidement où le rubric et les questions co-évoluent dans la tête des fondateurs. Le pack amortit son coût de configuration sur les équipes qui recrutent avec plusieurs panelistes par loop.
vs banques de questions natives de l’ATS (Greenhouse Interview Plans, Ashby Interview Templates). Le natif ATS est le bon choix si votre équipe vit dans l’ATS et veut des questions surfacées en contexte. Choisissez le pack si vous voulez la bibliothèque de questions versionnée dans votre propre repo et régénérable à mesure que le rubric évolue.
vs prompt ChatGPT générique « donne-moi des questions d’entretien pour ingénieur senior ». Le chat générique retourne des questions génériques. Le pack est structurellement différent : chaque question est taguée avec une dimension de rubric, une ancre et une relance.
vs aucune préparation du tout. Mode d’échec prévisible : les panelistes posent des questions différentes, le débrief compare des pommes et des oranges, la décision dérive vers celui qui a parlé en premier.
Points de vigilance
Héritage de biais depuis le rubric.Protection : le pack génère des questions DEPUIS le rubric. Si le rubric a des dimensions biaisées (« culture fit » sans ancres, scoring de prestige de l’école), les questions sondent le biais. Auditez le rubric en amont — voir l’auditeur de slate diversifiée.
Préparation des questions.Protection : le prompt B2 du pack produit explicitement des relances pour les réponses préparées. La relance demande un exemple différent ou un contrefactuel ; elle ne laisse pas le candidat rejouer le script préparé.
Questions génériques qui passent à travers.Protection : chaque question générée doit référencer la dimension du rubric et l’ancre qu’elle discrimine. Les questions qui ne référencent pas une ancre sont signalées dans l’output du prompt pour que le paneliste les supprime ou les réécrive.
Difficulté de questions incohérente entre panelistes.Protection : les prompts sont tagués avec l’ancre du rubric (1-5) pour laquelle ils sont calibrés. Deux panelistes posant des questions différentes sur la même dimension sont toujours calibrés sur les mêmes ancres.
Explosion de longueur.Protection : les prompts du pack plafonnent l’output à « 3 par dimension, 12 dimensions max » — la bibliothèque d’un poste typique atterrit à ~50-80 questions, pas 500. Le hiring manager choisit 8-15 à réellement utiliser par slot de panel.
Questions obsolètes sur des rubrics stagnants.Protection : relancez le pack quand le rubric change (le pack est rapide — 30 minutes, c’est bon marché). Les vieilles bibliothèques de questions liées depuis les documents de préparation à l’entretien deviennent silencieusement obsolètes autrement.
Stack
Le bundle d’artifact se trouve dans apps/web/public/artifacts/interview-question-bank-prompt-pack/ et contient :
interview-question-bank-prompt-pack.md — les douze prompts, prêts à coller dans Claude
Outils utilisés par le workflow : Claude (le modèle). L’output s’insère dans Notion, le wiki d’équipe ou un modèle de plan d’entretien ATS.
# Interview Question Bank — Twelve Prompts for Claude
A pack of structured prompts for generating a tiered interview question library from a role rubric. Paste a rubric, paste a prompt, get a question library tagged with rubric dimensions, anchors, and follow-ups.
## How to use this pack
1. Create a Claude project named `interview-questions-<role-slug>` per role.
2. Drop the role rubric in as project knowledge. Every prompt below assumes the rubric is loaded and reads from it.
3. Save each prompt below as a saved prompt within the project, tagged by tier.
4. Run them in order. Most produce 30-90 second outputs at Sonnet 4.6 speed.
5. Review the outputs. Edit for the firm's voice. The pack delivers a competent starter; the hiring manager owns the final library.
## Rubric input shape
The pack assumes a rubric with this shape (the same shape used by the screening, take-home, and reference workflows):
```json
{
"role": "Senior Backend Engineer",
"level": "Senior IC (L5)",
"dimensions": [
{
"id": "skill_match",
"label": "Production Go or Rust experience and distributed-systems depth",
"anchors": {
"1": "...",
"2": "...",
"3": "...",
"4": "...",
"5": "..."
}
},
...
]
}
```
If the rubric doesn't load, the prompts halt and ask for the rubric file.
---
# Tier 1 — Behavioral
## B1. Three behavioral questions per rubric dimension
```
Role: You are a structured-interviewing question author. Write behavioral
questions in STAR shape (Situation, Task, Action, Result) calibrated to
a specific rubric dimension and anchor.
Context: The rubric is loaded as project knowledge. Every dimension has
five anchors (1-5) describing observable behaviors at increasing depth.
Task: For each dimension in the rubric, write THREE behavioral questions.
Each question must:
- Probe past behavior (NOT hypothetical — that's tier 2)
- Be calibrated to discriminate between two named anchors (e.g. "this
question discriminates anchor 3 from anchor 4")
- Be answerable in 3-5 minutes by a candidate at the role's level
- Avoid leading language ("tell me about a successful project" is leading;
"tell me about a project that didn't go as planned" is neutral)
For each question, output:
- The question text
- The dimension it probes
- The anchors it discriminates between
- The signal you're listening for in a strong answer
- The signal you're listening for in a weak answer
Things to avoid:
- Questions that probe traits ("are you a team player?") — probe behavior.
- Questions that have a single right answer — questions that probe the
candidate's framing of the problem.
- "Culture fit" questions without behavioral anchors.
- Questions about protected-class topics or proxies (school name, employment
gaps, family status, etc.).
Output format: Markdown, grouped by dimension, with a level-2 heading per
dimension and a level-3 heading per question.
```
## B2. Drill-down questions for rehearsed answers
```
Role: You are a structured-interviewing question author. The candidate has
clearly prepped the behavioral question — they answered too fluidly, with
named outcomes and a clean STAR structure. The drill-down asks for a
different example, a counter-factual, or a step they skipped.
Context: The rubric is loaded as project knowledge. Tier-1 behavioral
questions (B1 output) are loaded too.
Task: For each B1 question, produce ONE drill-down. Each drill-down must:
- Ask for a different example, the same dimension ("walk me through a
different time you had to do that")
- Or ask for a counter-factual ("what would you have done differently?")
- Or probe a step the candidate skipped ("what happened between steps 2
and 3? You moved fast there")
- Land in 30-60 seconds — drill-downs are quick probes, not new questions
For each drill-down, output:
- The drill-down question
- The B1 question it pairs with
- What the rehearsed-answer pattern looks like (so the panelist knows
when to use the drill-down)
Things to avoid:
- Aggressive or interrogator-style framings — the drill-down is curiosity,
not confrontation
- Drill-downs that probe a different dimension than the B1 question
- Drill-downs that ask the candidate to defend their original answer
Output format: Markdown, paired with the B1 question.
```
## B3. Behavioral questions probing failure / negative cases
```
Role: You are a structured-interviewing question author. Standard behavioral
questions probe success. Strong candidates have practiced "tell me about a
weakness" answers ("I'm a perfectionist"). The negative-case questions probe
failure without the rehearsal-friendly framing.
Context: Rubric loaded as project knowledge.
Task: For each rubric dimension, write THREE behavioral questions that probe
the candidate's behavior when they FAILED at the dimension. Each question
must:
- Probe a real failure ("tell me about a time you misjudged X")
- NOT be the "weakness" question
- Calibrate to the rubric — failure on a dimension at level 3 looks
different from failure at level 5 (a junior engineer's worst day is
a senior engineer's normal day)
- Be answerable without the candidate having to disclose a confidential
incident — the question should work even if the example is sanitized
For each question, output:
- The question text
- The dimension it probes
- The signal of a healthy failure narrative (named cause, named
correction, named lesson)
- The signal of an unhealthy narrative (blame on others, no specific
cause, no lesson, "I'm a perfectionist" pattern)
Things to avoid:
- Asking the candidate to disclose a regulated or proprietary incident
- Probing for failures that are protected-class adjacent (gaps, etc.)
- Stress-test framings ("describe your biggest professional regret")
Output format: Markdown, grouped by dimension.
```
---
# Tier 2 — Situational
## S1. Two situational scenarios per rubric dimension
```
Role: You are a structured-interviewing question author. Situational
questions probe how the candidate would handle a hypothetical, calibrated
to the role's level.
Context: Rubric loaded as project knowledge. Pay attention to the role's
level — Senior IC scope problems are different from Manager scope problems.
Task: For each rubric dimension, write TWO situational scenarios. Each
scenario must:
- Be calibrated to the role's level (a Senior IC scenario probes
cross-team-system tradeoffs; a Staff IC scenario probes org-wide
architectural tradeoffs)
- Be answerable in 5-8 minutes
- Have multiple defensible answers — the scenario probes the candidate's
framing, not a "right answer"
- Stay grounded in real situations the candidate would plausibly hit —
not contrived puzzles
For each scenario, output:
- The scenario as a paragraph (set the stage in 50-100 words)
- The opening question
- Two follow-up probes (drill-downs based on the candidate's first
response — "if they answer X, ask Y; if they answer Z, ask W")
Things to avoid:
- Trick questions or gotchas
- Scenarios that depend on the candidate having seen this exact stack
- Scenarios with a single "smart" answer — those probe pattern-matching,
not judgment
Output format: Markdown, grouped by dimension.
```
## S2. Listening dimensions per scenario
```
Role: You are a structured-interviewing notetaker primer. Panelists listen
for specific things in each scenario answer. Without the listening
dimensions, panelists collect anecdotes; with them, they collect signal.
Context: Rubric loaded as project knowledge. S1 scenarios loaded too.
Task: For each S1 scenario, list the FIVE answer dimensions the panelist
should listen for. Each dimension must:
- Be observable in the candidate's spoken answer (NOT something only
visible in their resume or in code)
- Map to a specific rubric anchor
For each scenario, output:
- "What strong answers do" (3 bullets — name the moves, the questions
asked back, the criteria stated)
- "What weak answers do" (3 bullets — name the failure patterns: jumping
to solution without clarifying, ignoring constraints, generic framing)
- "What to write down" (the concrete notes the panelist takes that anchor
the debrief later)
Output format: Markdown, paired with each S1 scenario.
```
---
# Tier 3 — Technical / craft deep-dive
## T1. Five deep-dive questions per must-have skill
```
Role: You are a craft-deep-dive question author. The role's rubric names
must-have skills. The deep-dive probes whether the candidate has the skill
at depth — not just whether they can name it.
Context: Rubric loaded as project knowledge. Focus on the must_have skills.
Task: For each must-have skill in the rubric, write FIVE deep-dive
questions. Label each as:
- SHALLOW: sanity check the candidate has the skill at all (e.g. "explain
how Go's goroutines differ from threads")
- DEEP: probe the edges of the skill (e.g. "walk me through the time you
debugged a goroutine leak — what symptoms led you to suspect it, what
tools did you use, what was the fix")
The mix should be 1 shallow + 4 deep per skill. The deep questions are
the differentiators; shallow questions are gates.
For each question, output:
- The question text
- SHALLOW or DEEP label
- The skill it probes
- The signal of a 4-anchor answer (depth, but not edge-case awareness)
- The signal of a 5-anchor answer (depth + named edge cases + cited
failure modes the candidate has personally hit)
Things to avoid:
- Trivia questions ("what's the keyword in Rust for X?") — probe usage,
not memorization
- Questions whose answer changes between language versions (probe
fundamentals, not the latest framework's API)
- Whiteboard-coding questions framed as discussion — those are a
different format
Output format: Markdown, grouped by skill.
```
## T2. Three follow-ups per deep-dive question
```
Role: You are a deep-dive follow-up author. The candidate's first answer
to a deep question is correct but surface-level. The follow-ups drill
into the edges of the skill where deeper signal lives.
Context: Rubric loaded. T1 questions loaded.
Task: For each T1 deep question, produce THREE follow-ups. Follow-ups
must:
- Drill into a specific edge of the skill (the failure mode, the limit
of the technique, the case where the standard answer breaks)
- Be open-ended — the candidate constructs the answer
- Be answerable in 2-4 minutes each
- Surface the candidate's ability to ENGAGE with not-knowing — partial
answers are signal too
For each follow-up, output:
- The follow-up question
- What edge of the skill it probes
- What an "I don't know but here's how I'd find out" answer looks like
Things to avoid:
- Follow-ups that assume the candidate already gave a wrong answer
- Stacked follow-ups that pile pressure rather than probe depth
Output format: Markdown, paired with each T1 question.
```
## T3. Gap-finding questions per skill
```
Role: You are a gap-finding question author. Most technical questions
probe whether the candidate HAS a skill. Gap-finding probes whether the
candidate notices the LIMIT of the skill — when to use a different tool.
Context: Rubric loaded.
Task: For each must-have skill, write TWO questions that probe whether
the candidate notices when the skill is the wrong fit. Each question must:
- Describe a situation where the candidate's claimed skill would be
over-applied or mis-applied
- Ask the candidate to identify the alternative tool
- Probe judgment, not memorization
For each question, output:
- The question text
- The skill it probes
- The strong-answer pattern (named alternative tool, named criteria for
when each fits)
- The weak-answer pattern (defends the original tool, doesn't notice
the limit, claims the original tool covers the case)
Output format: Markdown, grouped by skill.
```
---
# Tier 4 — Reverse questions
## R1. Substantive questions a strong candidate might ask
```
Role: You are a reverse-question reader. Strong candidates ask substantive
questions about the role, the team, the firm. The questions they ask
signal what they prioritize.
Task: Produce a list of 10 substantive questions a strong candidate at
this role's level might ask, grouped by what each question signals.
For each question, output:
- The question
- What it signals (the candidate is thinking about ramp time, about
technical decision authority, about the trajectory of the team, etc.)
- How the panelist should respond — honestly, with specifics, not with
the recruiter pitch
Things to avoid:
- Generic questions ("what's the culture like?") — those are tier R2
- Questions that fish for the panelist's commitment ("would you
recommend joining?") rather than probe substance
Output format: Markdown, grouped by signal.
```
## R2. Generic / weak questions and what they signal
```
Role: You are a reverse-question reader. Weak candidates ask generic
questions. Generic questions are not necessarily disqualifying — they
might be early-career, or anxious — but they are signal.
Task: Produce a list of 10 generic / weak questions and what each
signals.
For each question, output:
- The question
- The signal it sends (didn't research, anxious about basics, fishing
for a specific answer the candidate already has, etc.)
- How the panelist should react — usually, redirect to a more specific
question to give the candidate another chance
Output format: Markdown, grouped by signal.
```
## R0. Synthesizing the reverse-question read
```
Role: You are an interview debrief facilitator. The candidate asked
N questions across the loop. The synthesis pulls the signal from the
pattern, not the individual questions.
Context: Rubric loaded. R1 + R2 outputs loaded.
Task: Produce a one-page synthesis template the panel uses in the debrief
to read the candidate's reverse questions as a pattern. The template
captures:
- Which substantive areas the candidate probed (matching to R1 signals)
- Which generic patterns showed up (matching to R2 signals)
- The cross-panelist read — different panelists got different questions;
the pattern is the read
Output format: A markdown template the panel fills in during the debrief.
```