ooligo
claude-skill

Take-Home-Assessment-Evaluator mit Claude

Difficulty
Fortgeschritten
Setup time
40min
For
recruiter · hiring-manager · technical-screener
Recruiting & TA

Stack

Ein Claude Skill, der die Take-Home-Einreichung eines Kandidaten anhand eines vom Hiring-Team erstellten Rubriks bewertet, mit zeilenweisen Zitaten aus dem eingereichten Code oder den Dokumenten, und einen strukturierten Evaluationsbericht produziert — er gibt nie automatisch ein Pass oder Fail. Das Hiring-Panel verwendet den Bericht, um das Live-Debrief zu verankern; die eigentliche Hire/No-Hire-Entscheidung fällt in der Panel-Diskussion, nicht im Bericht. Ersetzt die 60-90 Minuten pro Panelist von unorganisiertem „Ich habe das Samstagmorgen gelesen und dachte, es war okay?” durch einen strukturierten 15-Minuten-Review pro Panelist plus ein 30-minütiges kalibriertes Debrief.

Wann verwenden

  • Die Rolle verwendet ein Take-Home-Assessment als Schritt im Loop (Structured Interviewing als Voraussetzung — ohne ein schriftliches Rubrik hat der Skill nichts, wogegen er bewertet).
  • Sie wollen eine konsistente Bewertung über Panelists hinweg. Take-Home-Reviews sind notorisch inkonsistent, weil jeder Panelist zu einem anderen Zeitpunkt mit einem anderen Aufmerksamkeitsniveau liest; der rubrikverankerte Bericht ist das Nivellierungsartefakt.
  • Das Take-Home ist eine Coding-Aufgabe, ein System-Design-Write-up, eine schriftliche Aufgabe (PRD-Entwurf, Sales-Call-Mock-Write-up) oder ein Integrations-Build, der inspizierbare Artefakte produziert.

Wann NICHT verwenden

  • Auto-Pass / Auto-Fail im Loop. Der Skill produziert einen bewerteten Bericht. Die Hire-Entscheidung fällt im Panel-Debrief. Die Verdrahtung des aggregierten Scores des Berichts mit einem Stage-Übergang löst dasselbe NYC LL 144 / EU-KI-Gesetz-Exposure aus wie automatische Ablehnung beim Screening.
  • Live-Coding-Interviews. Anderer Workflow (Live-Beobachtung des Prozesses, keine Artefakt-Evaluierung). Der Interview-Debrief-Workflow verarbeitet diesen Fall.
  • Take-Homes länger als 4 Stunden Kandidatenarbeit. Lange Take-Homes sind selbst ein Candidate Experience-Anti-Pattern; der Skill behebt das nicht.
  • Einreichungen, bei denen der Kandidat die KI-Nutzungs-Offenlegung nicht unterzeichnet hat. Die Rubrik-Bewertung ist gegen eine bestimmte KI-Nutzungsrichtlinie kalibriert (z.B. „KI-Tools für Syntaxhilfe erlaubt, nicht für Lösungsgenerierung”); ohne die Offenlegung kann der Skill die „nur-KI-Signal”-Erkennung nicht kalibrieren.
  • Plagiatserkennung als primärer Einsatz. Der Skill flaggt verdächtige Muster (wörtliche öffentliche Repo-Übereinstimmungen, generisches KI-generiertes Boilerplate), ist aber kein forensisches Plagiat-Tool. Verwenden Sie ein dediziertes Tool, wenn Sie defensible Plagiatsbefunde benötigen.

Einrichtung

  1. Bundle ablegen. Platzieren Sie apps/web/public/artifacts/take-home-evaluator-claude-skill/SKILL.md in Ihrem Claude Code Skills-Verzeichnis.
  2. Rubrik erstellen. Pro Take-Home, schreiben Sie ein JSON-Rubrik mit den Dimensionen, auf denen Sie tatsächlich bewerten (Korrektheit, Code-Qualität, in Kommentaren / README dokumentierte Entscheidungsfindung, Fehlerbehandlung, Test-Abdeckung). Anker pro Dimension bei 1-5. Die Vorlage befindet sich in references/1-take-home-rubric-template.md.
  3. KI-Nutzungsrichtlinie konfigurieren. Der Prompt des Skills teilt Claude explizit mit, welche KI-Nutzung erlaubt war („nur Syntaxhilfe”, „KI-Tools durchgehend erlaubt”, „keine KI-Tools” usw.). Die Einstellung entspricht der Offenlegungssprache im Take-Home-Brief — sie müssen übereinstimmen.
  4. Panelist-Verteilungsmodus setzen. Entweder Einzelpanelist-Modus (ein Bericht pro Einreichung) oder per-Panelist-Modus (jeder Panelist bekommt dieselbe Einreichung, generiert seine eigene Evaluation, und der Skill aggregiert die cross-panelist Deltas). Per-Panelist-Modus fängt Bewertungs-Drift auf, verdoppelt aber die Modellkosten.
  5. Trockendurchlauf mit einem geschlossenen Take-Home. Bewerten Sie ein Take-Home von einem Kandidaten, der letztes Quartal eingestellt (oder nicht) wurde. Vergleichen Sie die Dimensionswerte des Skills mit den tatsächlichen Werten des Panels. Passen Sie die Rubrik-Anker an, wenn der Skill Dimensionen anders gewichtet.

Was der Skill tatsächlich tut

Sechs Schritte. Die Reihenfolge ist wichtig: Deterministische Prüfungen (Kompilieren, Ausführen, Dateistruktur) erfolgen, bevor das LLM etwas bewertet, weil das Zulassen, dass das Modell eine nicht laufende Einreichung bewertet, einen selbstsicheren Bericht über ein kaputtes Artefakt produziert.

  1. Einreichungsform validieren. Prüfen, ob alle im Take-Home-Brief genannten Lieferobjekte vorhanden sind (z.B. README.md, Source-Dateien, Test-Dateien). Fehlende Lieferobjekte → im Bericht flaggen; diese Dimensionen NICHT bewerten.
  2. Deterministische Prüfungen ausführen. Code kompilieren. Die vom Kandidaten geschriebene Test-Suite ausführen. Ausgabe erfassen. Das sind die überprüfbaren, reproduzierbaren Ergebnisse — das LLM re-litigiert sie nicht.
  3. Pro Rubrik-Dimension bewerten. Für jede Dimension im Rubrik, 1-5 mit wörtlichen Zitaten aus der Einreichung des Kandidaten bewerten (Dateipfad + Zeilenbereich + der Code oder Text). Zitate sind erforderlich; ohne ein Zitat fällt die Bewertung auf den 1-Anker des Rubriks zurück. Die Zitatanforderung hält das Modell in der tatsächlichen Einreichung verankert, anstatt generisches Feedback zu geben.
  4. KI-Nutzungssignal gegen die Richtlinie erkennen. Musterchecks gegen die offengelegte KI-Nutzungsrichtlinie ausführen. Wörtliche Übereinstimmungen mit öffentlichem KI-generiertem Boilerplate, verdächtig konsistenter Stil über Dateien unterschiedlicher Komplexität hinweg oder generische Kommentare ohne Auseinandersetzung mit den problemspezifischen Entscheidungen erscheinen alle als ai-use-signal-Hinweise — nicht als Verletzung, nur als Signal für das Panel, um es gegen die offengelegte Richtlinie zu diskutieren.
  5. Aggregat berechnen OHNE Hire/No-Hire-Empfehlung. Die Dimensionswerte summieren. Das Aggregat als Zahl ausgeben. Das Aggregat NICHT in eine Empfehlung übersetzen. Der Skill gibt explizit „Bericht; keine Entscheidung” zurück, nicht „Pass / Fail”.
  6. Per-Panelist- oder aggregierten Bericht ausgeben. Im Einzelpanelist-Modus geht der Bericht an den aufrufenden Panelist. Im Per-Panelist-Modus aggregiert der Skill über Panelists, zeigt per-Dimension cross-panelist Deltas (und welcher Panelist was anders gesehen hat) und gibt einen debrief-fertigen Bericht aus.

Kostenrealität

Pro Take-Home-Einreichung, mit Claude Sonnet 4.6:

  • LLM-Token — typischerweise 15-30k Eingabe-Token (Rubrik + Einreichungscode/-text + Skill-Anweisungen) und 3-5k Ausgabe-Token (per-Dimension bewerteter Bericht). Ca. 0,15-0,25 $ pro Einreichung im Einzelpanelist-Modus. Per-Panelist-Modus (3-4 Panelists) multipliziert linear.
  • CI / Sandbox-Kosten — die Test-Suite des Kandidaten auszuführen kostet, was Ihre CI normalerweise kostet; üblicherweise vernachlässigbar. Sandboxed Execution (empfohlen — führen Sie Kandidaten-Code niemals auf dem Panel-Laptop aus) kostet, was Ihr Sandboxed-Runner-Anbieter berechnet.
  • Panelist-Zeit — der Gewinn. Der Erstdurchgang eines Panelists bei einem Take-Home sind 60-90 Minuten, wenn gut gemacht, weniger wenn schlecht gemacht. Den Bericht des Skills zu überprüfen und pro Dimension zustimmen/ablehnen zu notieren: 15-25 Minuten. Aggregierte Panel-Zeit eingespart pro Take-Home: 2-3 Panelist-Stunden.
  • Einrichtungszeit — 40 Minuten einmalig für das Rubrik und das KI-Nutzungsrichtlinien-Mapping pro Take-Home-Format. Wiederverwendung über Rollen in derselben Familie ist hoch.

Erfolgsmetrik

Drei Dinge pro Take-Home-Zyklus verfolgen:

  • Cross-Panelist-Score-Varianz — Varianz über die per-Dimension-Werte der Panelists. Der Skill sollte die Varianz komprimieren (Panelists verankert auf demselben Rubrik und denselben Zitaten) ohne künstliche Übereinstimmung zu erzwingen. Varianz unter ~0,5 (auf einer 5-Punkte-Skala) deutet darauf hin, dass Panelists den Bericht des Skills stempeln; über ~1,5 deutet darauf hin, dass die Rubrik-Anker zu vage sind, um das Take-Home zu unterscheiden.
  • Hire-vs-No-Hire-Korrelation mit dem Skill-Aggregat — über ein Quartal, korreliert die Hire-Entscheidung des Panels mit dem Aggregat des Skills? Sollte positiv sein, aber NICHT 1,0; wenn es 1,0 ist, delegiert das Panel automatisch (was der Fehlermodus ist, gegen den der Skill entwickelt wurde), und wenn es 0 ist, ist das Rubrik oder der Skill nicht mit dem ausgerichtet, was das Panel tatsächlich bewertet.
  • Take-Home-Debrief-Dauer — Wanduhr von „alle Panelists haben Reviews eingereicht” bis „Entscheidung aufgezeichnet”. Sollte von 1-2 Tagen auf unter 4 Stunden sinken, weil der Bericht ein gemeinsamer Anker ist.

vs. Alternativen

  • vs. CodeSignal Coding Reports / HackerRank automatisches Grading. Diese Produkte führen Kandidatencode gegen die Test-Cases der Plattform aus und geben einen Score aus. Wählen Sie sie, wenn Ihr Take-Home strukturiertes gut-definiertes-Input-zu-gut-definierten-Output ist (LeetCode-Stil). Wählen Sie den Skill, wenn das Take-Home ein Build ist (kleines System schreiben, eine API entwerfen, ein PRD schreiben), wo das Rubrik der Score ist und der Score das Rubrik ist. Die beiden sind komplementär; CodeSignal kann der Eingabe für den Run-Tests-Schritt des Skills dienen.
  • vs. handbenoteten Take-Homes. Handbenotung ist richtig für die höchsten Einsätze (Gründungsingenieur, Principal IC), wo das narrative Urteil des Panels das Lieferobjekt ist. Der Skill verdient seinen Einrichtungsaufwand bei den 80% der Take-Homes, bei denen konsistente Rubrik-Anwendung das ist, was fehlt.
  • vs. ChatGPT-ähnlichem „Review diesen Code”. Generischer Chat gibt generisches Feedback. Der Skill ist strukturell anders: Er erfordert wörtliche Zitate, führt deterministische Prüfungen zuerst durch und weigert sich, eine Hire/No-Hire-Empfehlung zu erstellen.
  • vs. keinem Take-Home (nur-Live-Loops). Eine vernünftige Wahl für Senior-Rollen, wo Referenzen und Live-Runden die Last tragen. Der Skill ist irrelevant, wenn der Loop kein Take-Home hat.

Fallstricke

  • Auto-Pass / Auto-Fail-Drift. Guard: Die Ausgabe des Skills endet mit den per-Dimension-Werten und dem Aggregat. Es gibt keinen „Pass”- oder „Fail”-String. Das Schema lässt ein Empfehlungsfeld explizit aus.
  • Generische Feedback-Halluzinierung. Guard: Jeder Dimensionswert erfordert ein wörtliches Zitat (Dateipfad + Zeilenbereich + Inhalt). Werte ohne Zitate fallen auf 1 zurück.
  • Bias-Vererbung aus dem Rubrik. Guard: Das Rubrik ist diesem Skill vorgelagert. Führen Sie das Rubrik durch das Diversity Slate Auditor-Framing — bewertet das Rubrik Dimensionen mit bekannten disparaten Auswirkungen (z.B. „verwendet obskure Idiome”, was oft mit Bootcamp vs. Informatikstudium-Hintergrund korreliert)?
  • KI-Nutzungserkennung False Positive. Guard: KI-Nutzungssignale werden als Hinweise, nicht als Verletzungen angezeigt. Das Panel überprüft gegen die offengelegte Richtlinie. Auto-Flaggen als Verletzung wäre die falsche Lesart; legitime Verwendung von KI-Tools (innerhalb der Richtlinie) ist zunehmend die Norm.
  • Sandboxing-Fehler bei Kandidatencode. Guard: Der Skill empfiehlt explizit Sandboxed Execution und warnt, wenn die aufrufende Umgebung die Test-Suite direkt auf der Panel-Maschine ausführt. Führen Sie niemals unüberprüften Kandidatencode auf einer Maschine mit Zugriff auf Firmengeheimnisse aus.
  • Einreichungsgrößen-Explosion. Guard: Wenn die Einreichung ~50k LOC überschreitet, warnt der Skill, dass die Bewertung partiell sein wird, und fordert den Panelist auf, die Teile zu identifizieren, auf die er sich konzentrieren soll. Take-Homes, die 50k LOC produzieren, sind selbst ein Zeichen, dass der Brief falsch war.

Stack

Das Skill-Bundle befindet sich unter apps/web/public/artifacts/take-home-evaluator-claude-skill/ und enthält:

  • SKILL.md — die Skill-Definition
  • references/1-take-home-rubric-template.md — ausfüllbare Rubrik-Vorlage
  • references/2-ai-use-policy-mapping.md — wie die offengelegte Richtlinie auf die Muster-Prüfungen des Skills abgebildet wird

Tools, die der Workflow voraussetzt: Claude (das Modell). Optional: CodeSignal oder HackerRank für das Deterministische-Prüfungs-Bein; Ashby für den Kandidatendatensatz. Sandboxed Execution ist die Wahl des Recruiters / Hiring-Managers (Docker-Container, GitHub Actions usw.).

Verwandte Konzepte: Structured Interviewing, Behavioral Interviewing, Candidate Experience, Quality of Hire.

Files in this artifact

Download all (.zip)