ooligo
claude-skill

Klausel-Extraktion aus beliebigen Verträgen mit Claude

Difficulty
Anfänger
Setup time
20min
For
legal-ops · in-house-counsel · paralegal · contract-manager
Legal Ops

Stack

Eine Claude Skill, die einen einzelnen unterzeichneten Vertrag – .docx oder .pdf mit Textebene – entgegennimmt und einen zitierten JSON-Datensatz mit den Klauseln ausgibt, auf die Ihr CLM tatsächlich eingeht: Gerichtsstand, Haftungsdeckelung, Freistellung, Laufzeit, automatische Verlängerung, Kündigungsauslöser, Zahlungsbedingungen, IP-Eigentümerschaft, Vertraulichkeitsdauer, plus beliebige benutzerdefinierte Felder, die Sie konfigurieren (Datenspeicherort, MFN, Change-of-Control, Abtretung). Jeder extrahierte Wert enthält einen verbatim-Auszug, eine {Seite, char_span}-Zitation und einen Konfidenz-Score, sodass der nachgelagerte Reviewer in Sekunden verifizieren kann, ohne den Vertrag erneut zu lesen.

Diese Seite beschreibt, wann man sie ausführt, wann explizit nicht, was sie kostet und die benannten Fehlermodi, die Sie einschätzen sollten, bevor Sie sie auf ein Produktions-Repository richten.

Wann einsetzen

Greifen Sie auf die Skill zurück, wenn Sie einen strukturierten Output-Bedarf gegen Verträge haben, die bereits das Privilege-Clearing bestanden haben:

  • CLM-Daten-Backfill. Sie haben ein Flat-File-Repository (Box, SharePoint, Netzlaufwerk) geerbt und müssen Ironclad- oder Agiloft-Metadatenfelder befüllen, ohne ein Paralegal-Quartal zu verbrennen.
  • Klauselbibliotheks-Aufbau. Sie wollen jede „Haftungsdeckelung”-Klausel im Portfolio, damit die Klauselbibliothek widerspiegelt, was Sie tatsächlich vereinbart haben, nicht die angestrebte Position des Playbooks.
  • Due Diligence. Sie haben 48 Stunden, um Change-of-Control-, Abtretungs- und Most-Favoured-Customer-Klauseln im Vertragswerk eines Targets vor einem Deal-Abschluss aufzuzeigen.
  • Renewal-Triage. Sie müssen jeden Vertrag markieren, der in den nächsten 90 Tagen automatisch verlängert wird, mit befülltem Kündigungsfristen-Feld.

Das Artifact-Bundle liegt unter apps/web/public/artifacts/clause-extraction-claude-skill/ und liefert:

  • SKILL.md — die Skill-Definition mit Methode, Ausgabeformat und Hinweisen
  • references/1-clause-taxonomy.md — die zu extrahierenden Klauseln pro Vertragstyp, mit Überschriften und Synonymen
  • references/2-output-schema.json — das JSON Schema, gegen das jeder Datensatz validiert wird (an eine Version pinnen)
  • references/3-citation-format.md — Zitiergrammatik und die Regeln für „nicht vorhanden” / „konnte nicht extrahiert werden”-Fallbacks

Wann NICHT einsetzen

Die Skill ist bewusst eng. Lehnen Sie den Aufruf in einem dieser Fälle ab.

  • Privilegierte Entwürfe in aktiver Verhandlung. Die KI-Richtlinien der meisten Rechtsabteilungen (und die KI-Richtlinien-Vorlage, die wir empfehlen) ziehen eine klare Linie bei laufenden Verhandlungs-Entwürfen – insbesondere externe Anwalts-Redlines und anwaltliches Arbeitsergebnis. Diese Skill ist für unterzeichnete oder quasi-endgültige Verträge, die die Privilege-Frage bereits geklärt haben. Wenn Sie nicht sicher sind, ob ein Dokument die Prüfung bestanden hat, ist die Antwort nein.
  • Alles über Nicht-Tier-A-KI-Anbieter. Nur gegen den von Ihrer Firma genehmigten Tier-A-Endpunkt ausführen (Anthropic API direkt oder Ihr Enterprise-Claude-Tenant). Niemals den Consumer-Chatbot. Niemals ein Browser-Plugin. Niemals einen ungeprüften SaaS-Wrapper, der „Claude unter der Haube” verspricht. Das Senden eines Vertrags durch einen Tier-B-Anbieter ist ein Privilege-Leak-Vektor – lehnen Sie den Aufruf ab statt die KI-Richtlinie zu umgehen. Die Skill selbst kodiert eine Endpunkt-Allowlist fest; wenn Sie sie innerhalb von Claude Code oder Claude.ai mit Ihrem Enterprise-Tenant ausführen, sind Sie in Ordnung.
  • Entwurf oder Redlining. Diese Skill liest nur. Für Redlining verwenden Sie die separate Vertrags-Redline-Skill.
  • Rechtsauslegung. Der Output ist Text + Zitation. Ob eine 12-monatige Haftungsdeckelung „gut genug” ist, angesichts des Deal-Kontexts, ist ein Urteilsaufruf, der bei der Rechtsberatung bleibt.

Setup

  1. Bundle in ~/.claude/skills/ (Claude Code) ablegen oder das Verzeichnis references/ und SKILL.md in ein Claude.ai-Projekt hochladen.
  2. Den Inhalt von references/1-clause-taxonomy.md durch die tatsächliche Taxonomie Ihrer Firma ersetzen. Die Standard-Taxonomie enthält die üblichen MSA-Klauseln; die meisten Firmen fügen 5–10 benutzerdefinierte Felder hinzu (Datenspeicherort nach Jurisdiktion, Change-of-Control-Ausnahmen, Non-Solicit-Laufzeit, MFN-Umfang).
  3. references/2-output-schema.json an eine Version pinnen. extractor_version im Schema und in der Skill bei jeder Taxonomieänderung erhöhen, damit nachgelagerte Konsumenten Drift erkennen können.
  4. Auf einem bekannten Vertrag ausführen – wählen Sie einen, dessen Klauselwerte Sie bereits im CLM haben. Vergleichen Sie den extrahierten JSON mit dem CLM-Datensatz. Taxonomie-Synonyme iterieren, bis Sie übereinstimmen.
  5. Im großen Maßstab ausführen. Die Skill ist per Vertrag; Batch in n8n, einer Shell-Schleife oder dem Intake-Hook Ihres CLM orchestrieren.

Was die Skill tatsächlich tut

Vier Schritte der Reihe nach.

  1. Textextraktion mit Layout-Erhaltung. .docx wird über die docx-XML geparst; .pdf über pdfplumber, sodass Seitenzahlen und Bounding-Box-Zeichen-Spans erhalten bleiben. Wenn das PDF keine Textebene hat (gescanntes Bild), bricht die Skill mit error: "ocr_required" ab statt leeren Text auszugeben. Gescannte PDFs an OCR zu routen ist eine separate vorgelagerte Angelegenheit; diese Skill führt keine OCR durch, weil das stille Produzieren einer „sauberen” leeren Extraktion aus einem Scan schlimmer ist als laut zu scheitern.
  2. Zitations-verankerte Extraktion, ein Pass pro Klausel. Für jede Klausel in der Taxonomie: Kandidaten-Absätze durch Überschriften- + Synonym-Übereinstimmung finden, nur diese Kandidaten (nicht den gesamten Vertrag) mit der Klauseldefinition an Claude übergeben und den Wert, einen verbatim ≤ 280-Zeichen-Auszug, die {Seite, char_span}-Zitation und einen high | medium | low-Konfidenz-Score zurückfordern. Jeder Auszug, der nicht byte-identisch mit einem Teilstring der Quellabsätze ist, wird abgelehnt – das ist der Halluzinations-Guard, und er ist nicht verhandelbar. Per-Klausel-Prompts (statt eines Mega-Prompts) ermöglichen das Retry nur der Fehlschläge, begrenzen die Input-Tokens jedes Aufrufs und isolieren Halluzinationen auf ein einzelnes Feld statt den gesamten Datensatz.
  3. Schema-Validierung gegen das gepinnte output-schema.json. Validierungsfehler landen im errors-Array des Outputs. Die Skill erzwingt keine stillen Typ-Konvertierungen.
  4. „Nicht vorhanden”-Fallback. Wenn eine Klausel nicht gefunden wird, value: null, status: "not_present", note: "Gesuchte Überschriften: [...]" ausgeben. Nicht raten. CLM-Backfill-Pipelines behandeln null + status:not_present als bestätigt-abwesend (Vertrag ohne dieses Feld ablegen) und null + status:error als needs-rerun (nicht ablegen). Die beiden zu vermischen korrumpiert CLM-Daten über Zeit.

Kostenrealität

Zu 2026-Claude-Preisen – nennen wir es ~$3/M Input-Tokens und ~$15/M Output-Tokens für das kosteneffektive Modell in der Skill – werden die Kosten von Input-Tokens dominiert, und Input-Tokens werden von der Länge der Kandidaten-Absätze dominiert (weil die Skill nie den vollständigen Vertrag sendet, nur die übereinstimmenden Absätze pro Klausel).

Grobe Zahlen pro Vertrag:

  • Kurzer Vertrag (5 Seiten, ~3K Input-Tokens über alle per-Klausel-Aufrufe, ~500 Output-Tokens): ~$0,02 pro Vertrag.
  • Standard-MSA (20 Seiten, ~12K Input-Tokens, ~1K Output-Tokens): ~$0,05 pro Vertrag.
  • Langes Enterprise-MSA mit Anlagen (60 Seiten, ~35K Input-Tokens, ~2K Output-Tokens): ~$0,13 pro Vertrag.

Für ein typisches Mid-Market-Inhouse-Team, das ~200 neue und geerbte Verträge pro Monat durch die Pipeline führt, sind das $10–$30/Monat an Token-Ausgaben. Die Kosten sind Rundungsfehler gegenüber einer Paralegal-Stunde. Wo es aufhört, Rundungsfehler zu sein, ist das 50.000-Vertrags-Due-Diligence-Projekt – bei $0,05 pro Stück sind das $2.500, was immer noch günstig ist, aber es lohnt sich, es im Voraus zu budgetieren statt es auf der Kreditkartenrechnung zu entdecken.

Die Nicht-Token-Kosten: Jede Extraktion mit confidence: medium | low (und eine 10-%-Stichprobe von high) benötigt menschliche Überprüfung. Planen Sie ~30 Sekunden pro Datensatz bei medium und ~2 Minuten bei low. Die Skill ist schneller als ein Paralegal, nicht kostenlos.

Erfolgsmetrik

Zwei Metriken lohnen es, von Tag eins an zu instrumentieren.

  • Extraktionsgenauigkeit auf einem beschrifteten Set. Erstellen Sie ein 50-Vertrags-Gold-Set mit manuellen Extraktionen. Messen Sie Präzision und Recall pro Klausel. Ziel: ≥ 95 % Präzision auf den erforderlichen Klauseln (governing_law, liability_cap, term_length_months, auto_renewal). Darunter vergiften die False Positives das CLM, und Reviewer lernen, das Feld zu ignorieren. Recall ist weniger wichtig – not_present ist eine tragende Antwort, und eine verfehlte Klausel wird zur menschlichen Überprüfung geleitet.
  • Zeit pro Vertrag, von Ende zu Ende. Einschließlich des menschlichen Überprüfungs-Passes bei markierten Datensätzen. Ziel für ein 20-seitiges MSA: unter 4 Minuten Wanduhr, vs. 20–30 Minuten für vollständige manuelle Extraktion. Wenn Sie nicht 5× sehen, ist die Warteschlange für menschliche Überprüfung zu aggressiv – die Konfidenz-Schwellenwerte enger stellen.

Vergleich mit Alternativen

  • vs. Ironclad native KI-Klausel-Extraktion. Ironclads eingebaute Extraktion ist ausgezeichnet, wenn jeder Vertrag, der Ihnen wichtig ist, in Ironclad lebt. Sie kämpft, wenn Sie von außerhalb von Ironclad befüllen (der Import-Pfad ist unhandlich) und wenn Sie benutzerdefinierte Klauseln jenseits von Ironclads Vorlagensatz wollen. Diese Skill läuft gegen jede Datei auf der Festplatte und verwendet Ihre Taxonomie. Wenn Sie vollständig in Ironclad leben, verwenden Sie deren native Extraktion; wenn Sie mehrere Ziele befüttern oder Due Diligence an einem Nicht-Ironclad-Repository durchführen, ist diese Skill die bessere Wahl.
  • vs. Kira Systems. Kira ist der Enterprise-Grade-Incumbent – hohe Genauigkeit, tiefe Vorlagenbibliothek, teuer (sechsstellig), langer Verkaufszyklus, erfordert Trainingsdaten pro benutzerdefinierter Klausel. Wenn Sie eine BigLaw-Firma sind, die M&A-Due-Diligence im großen Maßstab durchführt, verdient Kira seinen Preis. Wenn Sie ein 50-köpfiges Legal-Ops-Team sind, das einige tausend geerbte MSAs rückwirkend befüllt, ist Kira Overkill und diese Skill ist zwei Größenordnungen günstiger für die Genauigkeit, die Sie brauchen.
  • vs. manueller Paralegal-Überprüfung. Der ehrliche Vergleich. Ein Paralegal, der 10 Klauseln aus einem 20-seitigen MSA extrahiert, braucht 20–30 Minuten und erreicht ≥ 99 % Genauigkeit bei einfachen Klauseln (Gerichtsstand, Laufzeit) und ~90 % bei den schwierigen (Haftungsdeckelungsstruktur, Freistellungsausnahmen). Diese Skill erledigt es in unter einer Minute für ~$0,05, trifft ~95 % bei einfachen und ~85 % bei schwierigen und leitet den Rest über das Konfidenz-Flag an einen Menschen. Der richtige Ansatz für die meisten Teams ist hybrid: Skill auf jedem Vertrag, Paralegal bei markierten Datensätzen.

Wichtige Hinweise

  • Privilege-Leak über Tier-B-Anbieter. Das Routing eines privilegierten Dokuments durch einen nicht genehmigten KI-Endpunkt kann das Privileg aufheben. Guard: Die Skill prüft beim Start eine fest kodierte Endpunkt-Allowlist (api.anthropic.com plus Ihr Enterprise-Tenant) und weigert sich zu laufen, wenn der konfigurierte Endpunkt nicht darauf steht. Dokumentieren Sie den Allowlist-Eigentümer in Ihrer KI-Richtlinie.
  • OCR-bedingte Textlücken bei gescannten PDFs. Ein gescanntes Bild-PDF ohne OCR-Ebene extrahiert als leere Seiten; ohne einen Guard würde die Skill die meisten Klauseln als not_present melden und wie ein sauberer Durchlauf aussehen. Guard: Schritt 1 erkennt Seiten mit < 50 extrahierten Zeichen und bricht mit ocr_required ab statt einen irreführenden Datensatz auszugeben. Routen Sie den Vertrag vorgelagert durch OCR und führen Sie erneut aus.
  • Halluzinierte Klauseln. Modelle werden hilfreicherweise eine „Kündigung aus Bequemlichkeit”-Klausel erfinden, die nicht existiert, wenn sie gefragt werden. Guard: Die byte-identische Auszug-Teilstring-Prüfung in Schritt 2 – jeder Auszug, der nicht wörtlich in den Quellabsätzen vorhanden ist, wird abgelehnt, und die Klausel erfasst status: "error", error: "excerpt_not_grounded". Es gibt konstruktionsbedingt keinen High-Confidence-Halluzinations-Pfad.
  • Schema-Drift über Vertragsversionen. Eine Taxonomie-Aktualisierung, die liability_cap von einem String zu einem {type, amount, period}-Objekt ändert, bricht stillschweigend jeden nachgelagerten Konsumenten. Guard: extractor_version in references/2-output-schema.json pinnen und bei jeder Taxonomie- oder Schema-Änderung erhöhen. Nachgelagerte Konsumenten schlüsseln auf Version, nicht auf eine Stabilitätsannahme.
  • Defined-Term-Auflösung. „Wie in Anlage A dargelegt” gibt die Referenz zurück, nicht den Wert. Guard: Die Skill erkennt wie in ... dargelegt / wie in ... definiert und gibt confidence: medium mit note: "Querverweise, manuelle Auflösung erforderlich" aus. Naive Auto-Auflösung ist schlechter als das ehrliche Flag.
  • Keine Rechtsberatung. Extraktion ist mechanisch. Ob eine 12-monatige Deckelung für diesen Deal akzeptabel ist, ist ein Urteil, das bei der Rechtsberatung bleibt.

Stack

  • Claude — Textextraktion-Orchestrierung, zitations-verankerte Klausel-Extraktion, Schema-Validierung
  • Ironclad (optional) — primäres CLM-Ziel für die extrahierten Datensätze. Siehe auch alternatives-to-ironclad und den best CLM platforms-Vergleich, wenn Sie noch auswählen.
  • CLM-Hintergrund — was CLM ist und wo Extraktion hineinpasst.

Files in this artifact

Download all (.zip)