ooligo
claude-skill

Evaluador de take-home con Claude

Dificultad
intermedio
Tiempo de setup
40min
Para
recruiter · hiring-manager · technical-screener
Reclutamiento y TA

Stack

Un Claude Skill que califica la entrega de take-home de un candidato contra una rúbrica escrita por el hiring team, con citas línea por línea desde el código o los documentos entregados, y produce un reporte de evaluación estructurado — nunca aprueba ni rechaza automáticamente. El panel de hiring usa el reporte para anclar el debrief en vivo; la decisión real de hire/no-hire ocurre en la discusión del panel, no en el reporte. Reemplaza los 60-90 minutos por panelista de “leí esto el sábado en la mañana y creo que estaba bien?” desorganizado con una revisión estructurada de 15 minutos por panelista más un debrief calibrado de 30 minutos.

Cuándo usarlo

  • El rol usa un take-home como parte del loop (prerrequisito: structured interviewing — sin una rúbrica escrita el skill no tiene contra qué calificar).
  • Quieres scoring consistente entre panelistas. Las revisiones de take-home son notoriamente inconsistentes porque cada panelista lee en distinto momento con distinto nivel de atención; el reporte anclado en rúbrica es el artefacto nivelador.
  • El take-home es un ejercicio de código, un write-up de system design, un ejercicio escrito (borrador de PRD, mock-write-up de una sales call), o una build de integración que produce artifacts inspeccionables.

Cuándo NO usarlo

  • Auto-pass / auto-fail en el loop. El skill produce un reporte calificado. La decisión de hire ocurre en el debrief del panel. Conectar el score agregado del reporte a una transición de stage dispara la misma exposición de NYC LL 144 / EU AI Act que el auto-rechazo en screening.
  • Entrevistas de live coding. Workflow distinto (observación en vivo del proceso, no evaluación del artifact). El workflow de interview-debrief cubre ese caso.
  • Take-homes más largos que 4 horas de trabajo del candidato. Los take-homes largos son por sí mismos un anti-patrón de candidate experience; el skill no arregla eso.
  • Entregas donde el candidato no firmó el disclosure de uso de AI. El scoring de la rúbrica está calibrado contra una política específica de uso de AI (e.g. “herramientas de AI permitidas para ayuda de sintaxis, no para generación de soluciones”); sin el disclosure, el skill no puede calibrar la detección de “señal de solo AI”.
  • Detección de plagio como uso primario. El skill marca patrones sospechosos (matches verbatim contra repos públicos, boilerplate genérico generado por AI) pero no es una herramienta forense de plagio. Usa una herramienta dedicada para eso si necesitas hallazgos de plagio defendibles.

Setup

  1. Pon el bundle. Coloca apps/web/public/artifacts/take-home-evaluator-claude-skill/SKILL.md en tu directorio de skills de Claude Code.
  2. Redacta la rúbrica. Por cada take-home, escribe una rúbrica JSON con las dimensiones sobre las que realmente calificas (corrección, calidad de código, toma de decisiones documentada en comentarios / README, manejo de errores, cobertura de tests). Anclas por dimensión de 1 a 5. El template vive en references/1-take-home-rubric-template.md.
  3. Configura la política de uso de AI. El prompt del skill le dice explícitamente a Claude qué uso de AI estaba permitido (“solo ayuda de sintaxis”, “herramientas de AI permitidas en todo el ejercicio”, “sin herramientas de AI”, etc.). El setting mapea al lenguaje del disclosure en el brief del take-home — deben coincidir.
  4. Define el modo de distribución por panelista. O modo de panelista único (un reporte por entrega) o modo per-panelista (cada panelista recibe la misma entrega, genera su propia evaluación, y el skill agrega los deltas cross-panelista). El modo per-panelista capta drift de scoring pero duplica el costo de modelo.
  5. Haz dry-run sobre un take-home cerrado. Califica un take-home de un candidato contratado (o no) el trimestre pasado. Compara los scores por dimensión del skill contra los scores reales del panel. Ajusta las anclas de la rúbrica si el skill pesa las dimensiones de manera distinta.

Qué hace el skill realmente

Seis pasos. El orden importa: los checks determinísticos (compilar, correr, estructura de archivos) suceden antes de que el LLM califique cualquier cosa, porque dejar que el modelo califique una entrega que no corre produce un reporte confiado sobre un artifact roto.

  1. Valida la forma de la entrega. Chequea que todos los deliverables nombrados en el brief del take-home existan (e.g. README.md, archivos fuente, archivos de tests). Deliverables faltantes → marca en el reporte; NO califiques esas dimensiones.
  2. Corre checks determinísticos. Compila el código. Corre la test suite que el candidato escribió. Captura el output. Estos son los resultados auditables y reproducibles — el LLM no los re-litiga.
  3. Califica por dimensión de la rúbrica. Por cada dimensión en la rúbrica, califica de 1 a 5 con citas verbatim de la entrega del candidato (ruta del archivo + rango de líneas + el código o texto). Las citas son requeridas; sin una cita, el score cae al ancla 1 de la rúbrica. El requisito de cita mantiene al modelo aterrizado en la entrega real en lugar de en feedback genérico.
  4. Detecta señal de uso de AI contra la política. Corre pattern checks contra la política de uso de AI declarada. Matches verbatim con boilerplate público generado por AI, estilo sospechosamente consistente entre archivos de complejidad variable, o comentarios genéricos sin engagement con las decisiones específicas del problema, todo aparece como notas de ai-use-signal — no como una violación, solo como una señal para que el panel discuta contra la política declarada.
  5. Calcula el agregado SIN una recomendación de hire/no-hire. Suma los scores por dimensión. Surfacea el agregado como número. NO traduzcas el agregado a una recomendación. El skill explícitamente devuelve “reporte; no es una decisión” en lugar de “pass / fail”.
  6. Emite reporte per-panelista o agregado. En modo de panelista único, el reporte va al panelista que llamó. En modo per-panelista, el skill agrega entre panelistas, surfacea deltas cross-panelista por dimensión (y qué panelista vio qué de manera distinta), y emite un reporte listo para el debrief.

Realidad de costos

Por entrega de take-home, sobre Claude Sonnet 4.6:

  • Tokens de LLM — típicamente 15-30k de input (rúbrica + código/texto de la entrega + instrucciones del skill) y 3-5k de output (reporte calificado por dimensión). Aproximadamente $0.15-0.25 por entrega en modo de panelista único. El modo per-panelista (3-4 panelistas) multiplica linealmente.
  • Costo de CI / sandbox — correr la test suite del candidato cuesta lo que cueste tu CI normalmente; usualmente despreciable. La ejecución en sandbox (recomendada — nunca corras código de candidato en el laptop del panel) cuesta lo que cobre tu proveedor de sandboxed runner.
  • Tiempo de panelista — la ganancia. La revisión de primera pasada de un panelista sobre un take-home toma 60-90 minutos cuando se hace bien, menos cuando se hace mal. Revisar el reporte del skill y anotar de acuerdo/no de acuerdo por dimensión toma 15-25 minutos. Tiempo agregado del panel ahorrado por take-home: 2-3 horas de panelista.
  • Tiempo de setup — 40 minutos una vez para la rúbrica y el mapping de política de uso de AI por formato de take-home. La reutilización entre roles de la misma familia es alta.

Métrica de éxito

Trackea tres cosas por ciclo de take-home:

  • Varianza de score cross-panelista — varianza entre los scores por dimensión de los panelistas. El skill debería comprimir la varianza (panelistas anclados en la misma rúbrica y las mismas citas) sin forzar acuerdo artificial. Varianza por debajo de ~0.5 (en escala de 5 puntos) sugiere que los panelistas están firmando en blanco el reporte del skill; arriba de ~1.5 sugiere que las anclas de la rúbrica son demasiado vagas para que el take-home discrimine.
  • Correlación de hire-vs-no-hire con el agregado del skill — a lo largo de un trimestre, ¿la decisión de hire del panel correlaciona con el agregado del skill? Debería ser positiva pero NO 1.0; si es 1.0, el panel está deferiendo automáticamente (que es el modo de falla contra el que el skill está diseñado), y si es 0, la rúbrica o el skill están desalineados con lo que el panel realmente valora.
  • Duración del debrief del take-home — tiempo de reloj desde “todos los panelistas entregaron reviews” hasta “decisión registrada”. Debería bajar de 1-2 días a menos de 4 horas, porque el reporte es un ancla compartida.

vs alternativas

  • vs CodeSignal Coding Reports / HackerRank automated grading. Esos productos corren el código del candidato contra los test cases de la plataforma y emiten un score. Elígelos si tu take-home es estructurado de input-bien-definido-a-output-bien-definido (estilo LeetCode). Elige el skill si el take-home es una build (escribe un sistema chico, diseña una API, escribe un PRD), donde la rúbrica es el score y el score es la rúbrica. Las dos son complementarias; CodeSignal puede ser el input al paso de run-tests del skill.
  • vs take-homes calificados a mano. El grading a mano es lo correcto para los hires de mayor stakes (founding engineer, principal IC) donde el juicio narrativo del panel es el deliverable. El skill paga su costo de setup en el 80% de los take-homes donde lo que falta es aplicación consistente de la rúbrica.
  • vs “revisa este código” estilo ChatGPT. El chat genérico devuelve feedback genérico. El skill es estructuralmente distinto: exige citas verbatim, corre checks determinísticos primero, y se niega a producir una recomendación de hire/no-hire.
  • vs no usar take-home (loops solo en vivo). Una elección razonable para roles senior donde las referencias y las rondas en vivo cargan el peso. El skill es irrelevante si el loop no tiene take-home.

Cosas para cuidar

  • Drift de auto-pass / auto-fail. Guardrail: el output del skill termina con los scores por dimensión y el agregado. No hay string “pass” ni “fail”. El schema omite explícitamente un campo de recomendación.
  • Alucinación de feedback genérico. Guardrail: cada score de dimensión exige una cita verbatim (ruta de archivo + rango de líneas + contenido). Los scores sin citas caen a 1.
  • Sesgo heredado de la rúbrica. Guardrail: la rúbrica es upstream de este skill. Pasa la rúbrica por el framing del diversity slate auditor — ¿la rúbrica califica sobre dimensiones con impacto dispar conocido (e.g. “usa idioms oscuros”, que frecuentemente correlaciona con background de bootcamp vs. carrera de CS)?
  • Falso positivo de detección de uso de AI. Guardrail: las señales de uso de AI se surfacean como notas, no como violaciones. El panel revisa contra la política declarada. Marcar automáticamente como violación sería la lectura equivocada; el uso legítimo de herramientas de AI (dentro de la política) es cada vez más la norma.
  • Falla de sandboxing sobre código del candidato. Guardrail: el skill explícitamente recomienda ejecución en sandbox y advierte si el entorno que llama corre la test suite directamente sobre la máquina del panel. Nunca corras código de candidato no revisado en una máquina con acceso a secretos de la firma.
  • Blowup de tamaño de entrega. Guardrail: si la entrega excede ~50K LOC, el skill advierte que el scoring va a ser parcial y le pide al panelista que identifique las partes en las que enfocarse. Los take-homes que producen 50K LOC son por sí mismos una señal de que el brief estuvo mal.

Stack

El bundle del skill vive en apps/web/public/artifacts/take-home-evaluator-claude-skill/ y contiene:

  • SKILL.md — la definición del skill
  • references/1-take-home-rubric-template.md — template de rúbrica para completar
  • references/2-ai-use-policy-mapping.md — cómo la política declarada mapea a los pattern checks del skill

Herramientas que el workflow asume que usas: Claude (el modelo). Opcionales: CodeSignal o HackerRank para la pata de checks determinísticos; Ashby para el registro del candidato. La ejecución en sandbox es elección del recruiter / hiring manager (contenedores Docker, GitHub Actions, etc.).

Conceptos relacionados: structured interviewing, behavioral interviewing, candidate experience, quality of hire.

Archivos de este artefacto

Descargar todo (.zip)