ooligo
claude-skill

Constructor de loops de entrevista estructurados con Claude

Dificultad
intermedio
Tiempo de setup
30min
Para
recruiter · hiring-manager · talent-acquisition
Reclutamiento y TA

Stack

Un Claude Skill que toma una descripción de puesto, el nivel del rol, las competencias imprescindibles y el pool de entrevistadores elegibles con las fortalezas calibradas de cada uno, y produce un diseño completo de loop — progresión por etapas, rúbrica por etapa con descripciones de anclaje, preguntas conductuales por dimensión y una tabla de asignación de entrevistadores con la justificación de cada elección. Luego se detiene en una compuerta de revisión del hiring manager antes de que se configure nada en el ATS. Reemplaza el “ya veremos el loop cuando haya un candidato en screen” con una pasada de diseño de 30 minutos que produce disciplina operativa.

Cuándo usarlo

  • Tienes un JD aprobado, un nivel confirmado y una lista de competencias imprescindibles que diferencian hire de no-hire en este rol.
  • Tienes una biblioteca de rúbricas de structured interviewing con descripciones de anclaje por nivel de puntuación por banda de nivel. La plantilla de competencias en apps/web/public/artifacts/interview-loop-builder-skill/references/1-competency-library.md muestra la forma; si no puedes completarla, todavía no tienes una rúbrica de la que este skill pueda tirar.
  • Tienes un pool de entrevistadores con fortalezas calibradas registradas por competencia por banda de nivel — ver references/2-interviewer-strengths.md en el bundle para la matriz.
  • Un hiring manager revisará el loop antes de que se configure en Ashby o Greenhouse. El skill escribe archivos y se detiene; no hace push al ATS.

Cuándo NO usarlo

  • Auto-scheduling. Este skill diseña el loop. No agenda entrevistas, no empareja calendarios ni envía links de booking de cara al candidato. Eso es Goodtime, Ashby Scheduling o Greenhouse Scheduling. Acoplar diseño y agendamiento en un solo skill acopla dos modos de falla que deben fallar de forma independiente.
  • Reemplazar el diseño de la rúbrica con el hiring manager. El skill emite descripciones de anclaje por nivel de puntuación tirando de la biblioteca de competencias, pero la biblioteca en sí — qué pinta tiene un 5 para systems-design en IC5 — la posee el hiring manager y el head of function. Si la biblioteca está vacía o es solo plantilla, el skill se niega y muestra un TODO en lugar de inventar anclajes de rúbrica para una función sobre la que no tiene señal calibrada.
  • Loops genéricos plantillados sin calibración específica al rol. Si los inputs no nombran el nivel, las competencias imprescindibles o el pool de entrevistadores elegibles, el skill se niega. Un loop de cuatro etapas con etiquetas genéricas “behavioral”, “technical”, “system design”, “leadership” se lee como estructurado pero no lo es. Cada candidato recibe las mismas preguntas independientemente de las prioridades del rol, lo que anula el sentido de la estructura.
  • Roles por debajo de un umbral definido de complejidad. Un rol de contractor de dos semanas no necesita un loop de cuatro etapas. El skill avisa y sugiere un screen de una sola etapa si el rol es contract, por hora o con tenencia esperada inferior a 6 meses.
  • Reemplazar la formación en behavioral interviewing. Las preguntas que emite el skill siguen la forma situación/comportamiento/resultado, pero los entrevistadores aún necesitan calibración entrenada para puntuar de forma consistente. El skill es el andamio; la formación es el prerrequisito.

Setup

  1. Coloca el bundle. Pon apps/web/public/artifacts/interview-loop-builder-skill/SKILL.md en tu directorio de skills de Claude Code (o en Skills personalizados de claude.ai). El skill expone una función invocable: design_loop.
  2. Completa la biblioteca de competencias. Copia references/1-competency-library.md a tu repo de equipo. Reemplaza cada placeholder con tus competencias reales, definiciones, bandas de nivel cubiertas y descripciones de anclaje por nivel de puntuación. El skill se niega a correr si la biblioteca es solo plantilla.
  3. Completa la matriz de fortalezas de entrevistadores. Copia references/2-interviewer-strengths.md. Lista cada entrevistador elegible, su equipo y las bandas de nivel en las que está calibrado para puntuar cada competencia. La columna “Last interview” es el disparador para re-calibrar a los 6 meses de inactividad.
  4. Configura los inputs por rol. Para un rol dado, pasa la ruta del JD, el nivel, un array de 3-6 IDs de competencias y una ruta a la matriz de fortalezas de entrevistadores ya completada. El skill emite loop.md y andamios de scorecard por etapa bajo scorecards/.
  5. Dry-run sobre un loop cerrado. Córrelo sobre un rol que diseñaste manualmente el último trimestre. Compara el mapeo de etapas y las asignaciones de entrevistadores del skill con el diseño manual. Si divergen, lo que normalmente hay que afinar es la biblioteca de competencias o la matriz de entrevistadores, no el prompt del skill.

Qué hace realmente el skill

Seis pasos, en orden. El orden importa: la validación determinista y el mapeo ocurren antes de que el LLM genere los anclajes de rúbrica y las preguntas, y la pasada de candidate experience al final relee el loop ensamblado para detectar sobrecarga que es invisible mientras se asigna cada etapa de forma aislada.

  1. Validar inputs. Cada ID de competencia existe en la biblioteca; el pool de entrevistadores tiene al menos una persona calibrada por competencia imprescindible al nivel del rol; el nivel cae dentro de las bandas cubiertas por la biblioteca. Detener con TODOs explícitos si falla cualquier check. Diseñar un loop de Director con una biblioteca solo de IC produce rúbricas infladas — este es el paso que lo previene.
  2. Mapear competencias a etapas. El recruiter screen evalúa fit y básicos (nunca on-rubric). El HM screen toma las 1-2 competencias más diferenciadoras. El loop on-site reparte el resto una-por-entrevista cuando es posible. La regla de una-competencia-por-entrevista es opinionada — meter dos competencias en una entrevista de 60 minutos produce señal más superficial en ambas, y hace la rúbrica más difícil de aplicar en el momento.
  3. Generar la rúbrica por etapa. Para cada etapa post-screen, tira las descripciones de anclaje para la banda de nivel del candidato desde la biblioteca de competencias. Genera 3-5 preguntas conductuales por dimensión siguiendo la forma situación/comportamiento/resultado, más una follow-up de profundización sugerida por pregunta. Las preguntas hipotéticas tipo “qué harías si” se excluyen por defecto — recompensan a los que adivinan articuladamente por encima de la experiencia evidenciada.
  4. Asignar entrevistadores con justificación. Para cada etapa post-screen, propone 1-3 entrevistadores del pool. Empareja por fit de calibración (requisito duro), carga (ningún entrevistador en más de una etapa del mismo loop) y diversidad de perspectiva (al menos un entrevistador fuera del equipo de contratación cuando el pool lo permita). Cada asignación va con una cadena de justificación explícita.
  5. Pasada de candidate experience. Releer el loop ensamblado. Tiempo total activo de entrevista por encima de 5 horas para IC o 7 para leadership → flag y sugerir un take-home. Más de 6 entrevistadores distintos → flag de fatiga del loop. Dos etapas explorando la misma competencia → flag de señal redundante. Etapas cross-timezone sin acomodación → mostrar un TODO.
  6. Compuerta de revisión del hiring manager. Escribir loop.md y scorecards/<NN>-<stage-id>.md. Detenerse. El skill no define ninguna acción de “publicar al ATS”. El HM abre el archivo, edita y configura el loop en Ashby o Greenhouse él mismo.

El formato literal de salida y el layout del andamio de scorecard viven en references/3-loop-output-format.md en el bundle. El formato es fijo porque los consumidores aguas abajo — el entrevistador leyendo el scorecard, el facilitador del debrief consolidando puntuaciones — necesitan estructura predecible.

Realidad de costos

Por diseño de loop, en Claude Sonnet 4.5:

  • Tokens del LLM — típicamente 30-60k tokens de input (JD más biblioteca de competencias más matriz de entrevistadores más instrucciones del skill) y 10-20k tokens de output (loop más 3-5 andamios de scorecard con anclajes y preguntas). En Sonnet 4.5 eso es aproximadamente $0.20-0.40 por diseño de loop. Una función que contrata 8 roles por trimestre gasta menos de $5 en costo de modelo en este skill.
  • Tiempo de recruiter y hiring manager — la victoria vive aquí. Un diseño de loop manual desde cero con tirones de rúbrica calibrados son 90-120 minutos de tiempo de HM más recruiter en la call de diseño, otros 30-60 minutos documentando preguntas y asignaciones. El skill comprime eso a una pasada de revisión de 30 minutos sobre el loop generado. Por rol, eso son aproximadamente 90 minutos ahorrados de tiempo de IC senior o manager.
  • Tiempo de setup — 30 minutos por rol una vez que la biblioteca de competencias y la matriz de entrevistadores están completadas. La biblioteca y la matriz son el prerrequisito — net-new, eso lleva una sesión de calibración por banda de competencia, que es una inversión en structured interviewing, no setup de este skill.
  • Beneficio compuesto — los loops estructurados producen mejor quality of hire que los loops ad-hoc en cada estudio publicado de los últimos veinte años. La victoria del skill es hacer que “estructurado” sea el default en lugar de la excepción, eliminando el overhead de diseño por rol.

Métrica de éxito

Trackea tres números por rol por trimestre, en el ATS:

  • Lead time de diseño del loop — horas desde “rol aprobado” a “loop configurado en ATS”. Debería bajar materialmente después de meter el skill en el flujo. Si no, el cuello de botella es la revisión del HM, no el diseño — saca el loop más temprano en la secuencia de role-kickoff.
  • Acuerdo entre evaluadores en la rúbrica — por dimensión de competencia, qué tan seguido las puntuaciones independientes de los entrevistadores caen dentro de un punto. Debería pegar 80% o más en competencias calibradas. Por debajo de eso, lo que hay que afinar son las descripciones de anclaje en la biblioteca de competencias, no el skill.
  • Quality of hire a 12 meses — la métrica de arco largo que el loop está diseñado para mover. Compara cohortes contratadas a través de loops diseñados con el skill vs loops ad-hoc en la misma familia de roles. Si la cohorte diseñada con el skill no rinde mejor, re-examina el mapeo competencia-a-etapa antes de abandonar la estructura.

vs alternativas

  • vs las plantillas de structured interviewing de Ashby — Ashby posee el loop configurado, el rendering de scorecard y el debrief en un solo producto. Elige las plantillas de Ashby si quieres una UX gestionada y tu equipo va a vivir en el ATS. Elige este skill si quieres los anclajes de rúbrica, la matriz de fortalezas de entrevistadores y el mapeo competencia-a-etapa en tu propio repo, versionados, con el paso de diseño intercambiable a medida que la biblioteca de competencias evoluciona. La salida del skill es el input para la configuración del loop en Ashby, no un reemplazo.
  • vs loops genéricos plantillados — todo ATS trae plantillas default de cuatro etapas (“phone screen, HM screen, technical, on-site panel”). Pasan por estructuradas a primera vista pero no lo son. La misma plantilla se aplica a un Backend IC4 y a un CS Manager M2, con las mismas preguntas genéricas, sin importar qué competencias realmente diferencian hire de no-hire en cada rol. El skill se gana sus 30 minutos de setup en el segundo rol porque el diseño está calibrado por rol en lugar de ser one-size-fits-all.
  • vs diseño DIY del loop por el hiring manager — un HM senior puede diseñar un buen loop desde cero en 90-120 minutos. Tienden a no hacerlo, porque bajo presión de plazos reutilizan el último loop que corrieron, sin importar el fit. La victoria del skill no es “diseña mejor que un HM experimentado en su pico”; es “diseña tan bien como un HM experimentado de forma consistente, en todos los roles y todas las semanas”. La consistencia es el beneficio compuesto.
  • vs ningún loop estructurado en absoluto — los meta-análisis publicados sobre structured interviewing sitúan a las entrevistas estructuradas en aproximadamente el doble de validez predictiva que las no estructuradas para el desempeño en el puesto. Si tu status quo es no estructurado, el skill no es la pregunta — adoptar estructura sí lo es. El skill es cómo hacer la estructura lo suficientemente barata como para realmente shipearla en cada rol.

A vigilar

  • Sobrecarga del entrevistador por la misma persona asignada en todas partes. Guard: el paso de asignación en el skill aplica “ningún entrevistador en más de una etapa del mismo loop” como regla dura. La tabla de asignación muestra un entrevistador de respaldo por etapa para que el recruiter tenga un fallback cuando el primario no esté disponible, en lugar de re-usar al primario en dos etapas.
  • Señal redundante entre etapas. Guard: la pasada de candidate experience relee el loop ensamblado y marca cualquier competencia explorada en más de una etapa. La tabla de mapeo competencia-a-etapa al inicio de la salida del loop hace visible la redundancia para el hiring manager en el momento de la revisión.
  • Candidate experience descuidada. Guard: la pasada de candidate experience es un paso separado y nombrado en el skill, no una frase al pie del loop. Aplica caps de tiempo total (5 horas IC, 7 horas leadership), caps de entrevistadores distintos (6), sugerencias de take-home para competencias que inflan el loop y TODOs de acomodación de zona horaria. Sin esa pasada, “una conversación de 30 minutos más” se acumula de forma invisible.
  • Drift de calibración dentro de un mismo loop. Guard: el bloque de rúbrica emitido por etapa incluye descripciones de anclaje por nivel de puntuación tiradas de la biblioteca de competencias, no un “puntúa de 1 a 5” en texto libre. Los anclajes son lo que sostiene la calibración cuando el mismo candidato es puntuado por cuatro entrevistadores diferentes en el mismo loop. Rúbrica vaga → puntuaciones vagas → debrief que re-litiga cada dimensión por anécdota.
  • El hiring manager rubber-stampea el diseño. Guard: el skill se detiene en la compuerta de revisión y escribe a archivos. No hay acción de “publicar al ATS”. El HM tiene que abrir el archivo y editarlo antes de configurar el loop — esa fricción es intencional. Si los HMs empiezan a firmar sin leer, el contenido del loop drifta lejos de las prioridades del rol y el skill deja de ganarse el tiempo ahorrado.
  • Calibración de entrevistador stale. Guard: la matriz de entrevistadores tiene una columna “Last interview”. Las celdas con más de 6 meses disparan re-calibración antes de que el entrevistador sea asignado de nuevo. Cuando la interview intelligence revela preguntas que no están produciendo señal útil, actualiza los anclajes de la biblioteca de competencias y el skill emite los nuevos anclajes en la siguiente corrida.

Stack

El bundle del skill vive en apps/web/public/artifacts/interview-loop-builder-skill/ y contiene:

  • SKILL.md — la definición del skill con frontmatter, reglas de cuándo invocar, inputs, método y watch-outs apareados con guards
  • references/1-competency-library.md — la taxonomía de competencias con descripciones de anclaje por nivel de puntuación por banda de nivel; rellenar por función antes de correr
  • references/2-interviewer-strengths.md — la matriz del pool de entrevistadores elegibles con cobertura calibrada por competencia; rellenar por equipo antes de correr
  • references/3-loop-output-format.md — el formato Markdown literal que el skill emite, incluyendo el layout del andamio de scorecard

Herramientas que el workflow asume que ya usas: Claude (el modelo), Ashby o Greenhouse (el ATS donde el HM configura el loop diseñado), BrightHire o Metaview (interview intelligence cuya señal alimenta el ajuste de anclajes de la biblioteca de competencias). Empareja directamente con el JD writer aguas arriba y el interview debrief summary aguas abajo.

Archivos de este artefacto

Descargar todo (.zip)