ooligo
claude-skill

Resumen de debrief de entrevista con Claude

Dificultad
principiante
Tiempo de setup
30min
Para
recruiter · hiring-manager · talent-acquisition
Reclutamiento y TA

Stack

Un Claude Skill que toma el panel completo de un candidato — la scorecard estructurada de cada entrevistador, transcripciones opcionales de BrightHire o Metaview, y el rubric del rol — y produce un brief de debrief con evidencia que el panel lee antes de la reunión sincrónica de debrief. El brief muestra la señal agregada por dimensión del rubric, áreas de acuerdo y desacuerdo, los puntos de decisión específicos que el panel necesita resolver, y preguntas de follow-up cuando la señal es delgada. Deliberadamente no emite una recomendación hire/no-hire — ese es el trabajo del panel, y tratarlo distinto pone el workflow dentro del régimen de alto riesgo del Anexo III del EU AI Act y de la mayoría de estatutos estatales de hiring-AI en EE.UU.

El efecto downstream: los debriefs se vuelven discusiones de 30 minutos sobre los desacuerdos reales en lugar de revisiones de 90 minutos sobre quién scoreó qué.

Cuándo usarlo

Ejecuta el skill cuando todo lo siguiente sea cierto:

  • Un loop de entrevistas completo concluyó para el candidato, con al menos 3 entrevistadores distintos cubriendo el rubric del rol.
  • Cada entrevistador envió una scorecard estructurada contra el rubric (las scorecards solo de free-text fallan el chequeo de input en el paso 1 del skill — ver apps/web/public/artifacts/interview-debrief-summary-skill/SKILL.md).
  • La reunión sincrónica de debrief está al menos a 2 horas de distancia. El brief está pensado para leerse con anticipación, no skimearse en la reunión.
  • El rol tiene un rubric estructurado que matchea el shape en apps/web/public/artifacts/interview-debrief-summary-skill/references/1-interview-rubric-template.md — cada dimensión tiene una tabla de anclas 1-5, y cada ancla tiene una descripción conductual.

Cuándo NO usarlo

El skill es la herramienta equivocada para varios trabajos adyacentes:

  • Auto-decidir hire/no-hire. El brief nunca emite una decisión final. Emite puntos de decisión para el panel. Auto-decidir dispara obligaciones del Anexo III del EU AI Act, el requisito de auditoría de sesgo de NYC LL 144, los requisitos de consentimiento de IL AIVI, y las reglas de notificación de MD HB 1202. El skill está construido para caer fuera de ese régimen; cablearlo a lógica de auto-decisión lo regresa adentro.
  • Enviar feedback a candidatos sin revisión del recruiter. El brief es interno. El texto de racional sintetizado usa fraseo de panel-interno que se vuelve evidencia en un reclamo de discriminación si se le muestra al candidato literal.
  • Reemplazar la conversación de debrief del panel. El brief es el insumo a la discusión, no un sustituto. “El brief muestra consenso, así que saltémonos el debrief” es el modo de falla contra el cual están diseñadas las reglas de references/3-disagreement-escalation.md — el consenso sin fricción es en sí mismo una preocupación de calibración.
  • Loops con un solo entrevistador. Bajo 3 entrevistadores, la síntesis de panel no es significativa. Usa un workflow de feedback de un solo entrevistador.
  • Transcripciones sin consentimiento. Las jurisdicciones de two-party-consent (CA, FL, IL, MD, MA, MT, NH, PA, WA) lo convierten en un freno duro. No pases transcripciones de BrightHire o Metaview a menos que el candidato haya consentido la grabación al inicio de la entrevista.
  • Sesiones de calibración sobre preguntas del rubric mismo. Cuando el panel está debatiendo el rubric (no al candidato), la síntesis por dimensión del brief es ruido. Corre la sesión de calibración por separado, y luego re-ejecuta el brief una vez que el rubric esté estable.

Setup

El bundle del artefacto vive en apps/web/public/artifacts/interview-debrief-summary-skill/. Contiene:

  • SKILL.md — la definición del Claude Skill con frontmatter, reglas de cuándo invocar, el método de seis pasos, el formato literal de output, y los pares watch-out / guardrail.
  • references/1-interview-rubric-template.md — el shape del rubric estructurado contra el cual el skill valida los inputs.
  • references/2-debrief-brief-format.md — el formato literal en Markdown en el que se escribe el brief.
  • references/3-disagreement-escalation.md — las reglas determinísticas de puntos de decisión (rango, veto del bar-raiser, divergencia HM-vs-panel, single-no-among-yes, hueco de cobertura, cluster sub-evidenciado).

Para poner en marcha el workflow:

  1. Suelta el bundle en tu directorio de skills de Claude Code. Coloca interview-debrief-summary-skill/ bajo .claude/skills/ de tu proyecto (o la ubicación compartida de skills de tu equipo).
  2. Reemplaza el template de rubric con tu rubric específico del rol. Edita references/1-interview-rubric-template.md por rol — cada dimensión necesita una tabla de anclas 1-5 con descripciones conductuales. Mantén el conteo de dimensiones entre 4 y 7. Bajo 4, el panel no puede triangular; arriba de 7, las scorecards se llenan como tarea pesada y la calidad de la evidencia se degrada.
  3. Cablea el export de scorecards. Configura el export de tu ATS para que el skill pueda leer scorecards estructuradas. Ashby, Greenhouse, y Lever cada uno expone scorecard JSON vía API; el skill espera un array de {interviewer_id, interviewer_role, dimension_scores, evidence_notes} según el bloque Inputs en SKILL.md.
  4. Prueba con un candidato conocido. Ejecuta sobre un candidato donde el panel ya hizo debrief y tomó una decisión. Compara los puntos de decisión del brief con los temas de discusión del debrief real. Si el brief muestra temas que el panel no discutió (o pierde temas que el panel sí discutió), afina el rubric — no el prompt — primero.
  5. Setea el directorio de audit log. El skill agrega una línea por ejecución a audit/<YYYY-MM>.jsonl que contiene SHA del rubric, conteo de entrevistadores, conteo de puntos de decisión, y timestamp. Sin PII del candidato en la línea de audit. El log es lo que hace al workflow defendible bajo cuestionamiento de NYC LL 144 / EU AI Act.

Qué hace realmente el skill

El método de seis pasos corre en este orden, y el orden es load-bearing:

  1. Valida el rubric y los inputs. Frena en rubrics solo de free-text, en menos de 3 entrevistadores, en dimensiones cubiertas por menos de 2 entrevistadores, en strings de evidence_notes bajo 20 caracteres. Frenar en lugar de advertir es intencional — un brief generado sobre inputs parciales se vuelve el ancla mental del panel.
  2. Agrega por dimensión (determinístico). Computa media, rango, desviación estándar, y desglose por interviewer-role. El LLM no ve scorecards aún en este punto.
  3. Identifica puntos de decisión (determinístico). Aplica las seis reglas en references/3-disagreement-escalation.md. Los puntos de decisión se basan en la señal estructurada, no en lo que el LLM piensa que se lee como desacuerdo.
  4. Sintetiza por dimensión. El LLM produce una síntesis de dos a tres oraciones por dimensión, citando los strings de evidence_notes literal entre comillas. Parafrasear es por donde entra el sesgo; el skill lo prohíbe. Cuando hay transcripciones disponibles, la síntesis cita el rango de timestamp. “Señal insuficiente — recomienda follow-up” es un output de primera clase, distinto a “sin recomendación” — la ausencia de evidencia en una dimensión es información que el panel necesita.
  5. Chequeo de calibración. Compara la distribución de scores del candidato contra la media móvil de los últimos 5 debriefs del mismo rol. Los hallazgos aparecen en un bloque de “Nota de calibración” al final del brief, nunca inline por dimensión. Intención: enmarcar la conversación, no ajustar scores.
  6. Escribe el brief y para. Escribe a briefs/<candidate_id>-<YYYYMMDD>.md. Agrega una línea al audit log. No llama a ningún endpoint de “send to candidate”, “post to Slack”, o “update ATS stage”. El brief es interno hasta que el recruiter y el hiring manager decidan qué hacer.

El formato de output es fijo (ver apps/web/public/artifacts/interview-debrief-summary-skill/references/2-debrief-brief-format.md) y intencionalmente no tiene sección de “Recomendación” — solo “Señal agregada”, “Síntesis por dimensión”, “Puntos de decisión para el panel”, “Preguntas de follow-up”, “Nota de calibración”, y “Apéndice — evidencia por entrevistador”. Un lector que intente leer una decisión de hire encuentra que la estructura lo empuja de vuelta a la discusión.

Realidad de costos

Un brief típico para un loop de 5 entrevistadores con 5 dimensiones de rubric y sin transcripciones adjuntas aterriza en aproximadamente 18-25k tokens de input (rubric + scorecards + evidence notes + los tres archivos de referencia) y 4-6k tokens de output. Con Claude Sonnet al pricing actual del API, eso es alrededor de $0.10-$0.15 por debrief. Con transcripciones adjuntas (transcripción típica de entrevista de 30 minutos: 7-10k tokens cada una), un loop de 5 entrevistadores empuja a $0.40-$0.70 por debrief.

La matemática del tiempo ahorrado es el número load-bearing: un debrief típico de 5 entrevistadores corre 60-90 minutos, de los cuales 30-50 minutos son el round-robin de “qué vio cada uno de nosotros” antes de que ocurra cualquier discusión real de decisión. El brief reemplaza el round-robin. Recruiters corriendo este skill en una de nuestras orgs de referencia reportan reuniones de debrief promediando 28 minutos (bajadas de 75 minutos) para loops donde el brief se distribuyó al menos 4 horas antes.

Eso son aproximadamente 45 minutos ahorrados por debrief, a través de (típicamente) 5 entrevistadores — alrededor de 3.75 horas-persona de tiempo de reunión por loop, a un costo bajo un dólar.

Métrica de éxito

La métrica a vigilar: mediana de longitud de la reunión de debrief en minutos calendario para loops donde el brief se distribuyó al menos 4 horas antes. Pull desde tu tooling de calendario (o desde el historial de scheduling de entrevistas de Ashby) y segmenta en cohortes “con brief” vs “sin brief”. Trayectoria objetivo: una mediana de 60-90 minutos en la cohorte sin brief cae a una mediana de 25-40 minutos en la cohorte con brief en las primeras 4-6 semanas.

Contra-métrica a vigilar en paralelo: tasa de regret post-hire a 6 meses en la cohorte con brief vs la cohorte sin brief. Si los debriefs se hicieron más rápidos pero la tasa de regret subió, el brief está dejando que los desacuerdos se promedien en lugar de mostrarlos — aprieta las reglas de escalación de desacuerdo en references/3-disagreement-escalation.md (típicamente: bajar el threshold de rango de 2 a 1.5, o agregar un trigger de “cualquier score bajo 3” para la dimensión relevante).

vs alternativas

  • Las features built-in de debrief de Ashby. Ashby agrega scorecards en una vista de dashboard y computa una media del panel. No produce una síntesis escrita, no muestra puntos de decisión por regla, y no diferencia “consenso en 4.0” de “cluster sub-evidenciado en 4.0”. Usa la vista de Ashby como la fuente de datos que el skill lee, no como sustituto del brief.
  • Agregación de Greenhouse Scorecards. Greenhouse rola scorecards en un tally de hire-or-no-hire por entrevistador más un agregado de recomendación del panel. El agregado es el modo de falla contra el cual está diseñado el skill — empuja a los paneles hacia score-aritmética-como-decisión y oscurece vetos del bar-raiser que terminan promediados en un “thumbs up” general.
  • Notas manuales del recruiter. Un recruiter leyendo cada scorecard y escribiendo un email de un párrafo con “temas para el debrief” es el status quo en la mayoría de los equipos. Captura la lectura del recruiter sobre el loop, lo cual es valioso, pero escala linealmente con el tiempo del recruiter y tiende a pattern-match hacia “lo que el HM probablemente quiere” a lo largo de muchas iteraciones. El skill es consistente entre recruiters y muestra desacuerdos estructurales (R3 — divergencia HM-vs-panel) que un recruiter escribiendo el brief él mismo raramente flaggea.
  • No hacer nada. El default — todos llegan al debrief con sus propias notas y la discusión corre round-robin. Funciona bien para equipos de bajo volumen (bajo 10 hires por trimestre). A volúmenes mayores, el round-robin es el cuello de botella y la calidad del debrief se degrada conforme se acumula la fatiga.

A tener en cuenta

  • Sesgo de una opinión fuerte (anchoring sobre la primera scorecard leída). Guardrail: el paso 2 agrega determinísticamente entre todos los entrevistadores antes de que el LLM vea cualquier scorecard individual. La regla R3 del paso 3 (divergencia HM-vs-panel) explícitamente muestra divergencia de single-strong-opinion como punto de decisión. La síntesis atribuye evidencia por interviewer-role (HM, Peer, XFN, Bar-raiser) en lugar de por nombre en los bloques por dimensión, lo que previene que el brief redondee hacia el entrevistador senior.
  • Falso consenso en dimensiones sub-evidenciadas. Guardrail: el chequeo de longitud mínima de evidence_notes en el paso 1 (bajo 20 chars falla). R6 (cluster sub-evidenciado) en el paso 3 muestra dimensiones donde 3+ scores se agrupan dentro de 1 punto pero el evidence note promedio está bajo 30 caracteres como RECOMMEND FOLLOW-UP, no como acuerdo. Este es el modo de falla silenciosa más común de los debriefs free-form.
  • Score-aritmética-como-decisión (tratar una media arriba de 3.5 como “hire”). Guardrail: el brief nunca emite una recomendación hire/no-hire. El formato de output intencionalmente no tiene un bloque de “Recomendación” — solo puntos de decisión y follow-ups. Un lector que intente leer una decisión encuentra que la estructura lo empuja de vuelta a la discusión.
  • Veto del bar-raiser silenciosamente sobrepasado. Guardrail: R2 en el paso 3 muestra cualquier score del bar-raiser 2+ debajo de la media del panel como punto de decisión automáticamente. El brief no puede generarse en un estado donde un dissent del bar-raiser se promedie — incluso si el resto del panel es unánime.
  • Patrones demográficos filtrándose en la síntesis. Guardrail: la síntesis cita los strings de evidence_notes literal en lugar de parafrasearlos, lo que previene que el LLM reescriba una observación en lenguaje que telegrafee una inferencia de clase protegida. Si un evidence_note recibido contiene proxies de clase protegida (origen del nombre, inferencia de edad, inferencia de estado parental, “culture fit” sin anclas conductuales), el skill frena en el paso 1 y muestra la nota ofensiva para reescritura antes de continuar.
  • Nota de calibración sobreinterpretada como veredicto. Guardrail: el bloque de calibración se agrega al final del brief, nunca inline por dimensión. El bloque usa el lenguaje “dentro de tolerancia” o “fuera de tolerancia — discutir” en lugar de sugerir una acción, y el chequeo de calibración se salta entero si hay menos de 5 debriefs previos del mismo rol cargados.

Stack

  • Proveedor de AI: Claude (Sonnet para el paso de síntesis; Opus para validación de rubric en first-run si el rubric es ambiguo).
  • ATS: Ashby, Greenhouse, o Lever — la fuente de datos de scorecards.
  • Transcripciones opcionales: BrightHire o Metaview, con captura documentada de two-party-consent al inicio de la entrevista.
  • Dónde encaja: ver structured interviewing para la disciplina de diseño de rubric que este skill asume ya está en su lugar. El skill no puede rescatar un proceso de entrevistas no estructurado — solo puede sintetizar la señal que un proceso estructurado produce.
  • Encuadre de política: ver AI policy for legal teams para el manejo de enterprise-AI Tier-A requerido para inputs de datos del candidato (las transcripciones en particular son personal data sensible bajo GDPR y la mayoría de regímenes de privacidad estatales en EE.UU.).

Archivos de este artefacto

Descargar todo (.zip)