ooligo
claude-skill

Auto-completar cuestionarios SIG/CAIQ de vendor diligence con Claude

Dificultad
intermedio
Tiempo de setup
30min
Para
legal-ops · contract-manager
Legal Ops

Stack

Un Claude Skill que toma un cuestionario de seguridad entrante — SIG, SIG-Lite, CAIQ, HECVAT, o un formato de spreadsheet custom — y la control library mapeada de tu firma, y luego redacta tantas respuestas como puede mientras marca preguntas nuevas, forward-looking o de baja confianza para revisión del security team. El skill produce el .xlsx original con las celdas de respuesta pobladas más un resumen en markdown que lista cada flag, cada cita y cada confidence score. Carga la control library una vez; córrelo en cada cuestionario entrante de ahí en adelante. Recorta las típicas 4-8 horas de tiempo de analista por respuesta de vendor due diligence a una pasada de revisión de 30-45 minutos.

Cuándo usarlo

Usa este skill cuando un cliente o prospect envía un cuestionario de seguridad entrante y quieres tener el 70-80% mecánico de respuestas pre-pobladas, citadas a tu control library y a la evidencia de soporte, antes de que un security analyst tome el control. La economía funciona cuando el volumen de cuestionarios es lo bastante alto como para que el ahorro de tiempo por respuesta se acumule — típicamente un equipo de GRC manejando 8+ cuestionarios entrantes por mes, donde el tiempo del analyst es la restricción dominante y la control library ya está documentada.

El skill asume que ya tienes una control library mapeada — cada control indexado por sección de SOC 2, cláusula de ISO Annex A, ID de control de CCM, y función de NIST CSF, con la respuesta canónica revisada por security y legal. Si todavía no tienes esa library, constrúyela primero. El skill amplifica una postura de controles documentada; no la inventa. Por debajo de aproximadamente 8 cuestionarios al mes, el overhead de mantener la library excede el ahorro y el analyst debería seguir redactando a mano.

Cuándo NO usarlo

  • Envío final al cliente. El skill redacta; un security analyst nombrado revisa cada respuesta y el deal owner firma antes de que el cuestionario vuelva. Auto-fill más auto-send es el modo de falla contra el que esta regla protege — cada respuesta del cuestionario es una representación contractual.
  • Cualquier cosa ruteada a través de un vendor de AI que no sea Tier A. El contenido del cuestionario frecuentemente cita la propia arquitectura y metadata de procurement del cliente. Si el modelo configurado no está en la lista de vendors aprobados de la firma con un DPA firmado cubriendo trabajo de programa de seguridad, escala a security en lugar de correr. El skill aplica esto como precondición leyendo la lista de vendors permitidos al inicio de references/3-novel-question-escalation.md.
  • Frameworks de control nuevos que la firma no ha mapeado. FedRAMP Moderate, IRAP, BSI C5 — si el framework no está en la library, el skill va a pattern-match de manera incorrecta y producir respuestas confiadamente equivocadas. Mapea el framework dentro de la library primero, luego corre.
  • Cuestionarios atados a un incidente activo o a un audit finding abierto. Esos no son ejercicios de redacción. Security y legal los manejan directamente.
  • Cualquier cliente que haya pedido explícitamente respuestas sin asistencia de AI. Honra el pedido. Algunos equipos de procurement exigen autoría 100% humana en el cuestionario y lo verifican.
  • Cuestionarios de texto libre fuertemente customizados que te citan el MSA del propio cliente. “Confirma que tu deployment coincide con el Schedule 3” es una pregunta para el deal team, no una pregunta de controles. El skill marca estas por default en lugar de adivinar sobre lenguaje contractual específico del cliente.

Setup

  1. Pon el bundle. Coloca los contenidos de apps/web/public/artifacts/vendor-dd-questionnaire-skill/ en tu directorio de skills de Claude Code (~/.claude/skills/vendor-dd-questionnaire/) o sube la carpeta a un proyecto de Claude.ai. El skill expone un solo entry point: pásale el cuestionario entrante y devuelve el .xlsx poblado más un resumen en markdown.
  2. Reemplaza los templates. El bundle viene con tres archivos de template en references/. Reemplaza cada uno con el contenido real de tu firma antes del primer run:
    • references/1-control-library-template.md — tu control library mapeada, indexada por framework, con respuestas canónicas e IDs de evidencia de soporte. Este es el archivo contra el que el skill matchea cada pregunta; sin tus controles reales, cada respuesta es genérica.
    • references/2-answer-format-reference.md — los formatos de respuesta literales por tipo de pregunta (Yes/No, Yes/No-con-descripción, descriptiva, document-upload, certification-reference, N/A). Reemplaza el wording de ejemplo con tu estilo de la casa.
    • references/3-novel-question-escalation.md — las reglas que deciden cuándo una pregunta se rutea a un security analyst en lugar de recibir una respuesta redactada. Críticamente, aquí también listas los vendors de AI autorizados para trabajo de programa de seguridad — el skill se niega a correr de otra manera.
  3. Construye el índice de evidencia. Mantén una lista de documentos de evidencia de soporte (reporte SOC 2, certificado ISO, resumen de pen test, BCP, plan de IR, lista de sub-procesadores) con un ID por documento y una fecha effective_through. El skill cita IDs en las respuestas; el analyst maneja la entrega real del documento a través del trust center con NDA de la firma, nunca adjuntando docs al archivo del cuestionario.
  4. Prueba sobre un cuestionario conocido. Corre el skill sobre un SIG-Lite o CAIQ que ya hayas completado a mano. Compara las respuestas auto-completadas contra tus respuestas manuales. Ajusta la control library donde el skill se pierda matches obvios; ajusta el answer-format reference donde el wording se sienta forzado. Dos o tres iteraciones llegan a un baseline estable.
  5. Conéctalo al intake. Cuando llegue un cuestionario nuevo, el analyst asignado tira el .xlsx en el skill y recibe el archivo poblado más el resumen en markdown en aproximadamente 60 segundos. El analyst abre el resumen primero, revisa las preguntas marcadas, y luego recorre el .xlsx poblado (cada celda lleva un comment con el ID de control, ID de evidencia y confidence) antes de devolverlo al cliente.

Qué hace el skill realmente

El skill corre cuatro sub-tareas en orden; no se paralelizan porque cada paso depende del contexto del anterior. El método completo, con el razonamiento de ingeniería, vive en apps/web/public/artifacts/vendor-dd-questionnaire-skill/SKILL.md. En resumen:

  1. Clasificación de pregunta. Por cada fila, identifica el tipo de respuesta esperada (Yes/No, Yes/No-con-descripción, descriptiva, document-upload, certification-reference, N/A), el tópico (control de acceso, encriptación, IR, BCP, sub-procesadores, etc.) y la pista de framework si la pregunta cita una (CC6.1, A.9.4.2, CCM IAM-09). Por qué clasificación primero: el tipo de pregunta controla el formato de respuesta, y el tópico más la pista de framework manejan juntos el lookup contra la control library. Saltarse esto y dejar que el modelo redacte libremente es la razón más común por la que el auto-fill produce respuestas inconsistentes o mal categorizadas.
  2. Matching contra la control library. Busca el control que matchee con prioridad: match exacto de sección de framework → tópico más sub-tópico dentro del mismo framework → match cross-framework de tópico → sin match (marca para escalación, no improvises). Por qué control-library-first en lugar de improvisar desde documentación: las entradas de library ya fueron revisadas por security y legal. Las respuestas improvisadas reintroducen ese burden de revisión en cada run, anulan el ahorro de tiempo y crean riesgo de representación contractual.
  3. Redacción de respuesta con citas. Emite la respuesta canónica en el formato que la pregunta espera, llevando el ID de control, el ID de evidencia de soporte, la fecha last_reviewed de la entrada de library, y un confidence score (high / medium / low). Pattern-matchea contra prior_responses como desempate solo en matches fronterizos — nunca dejes que una respuesta previa anule la library actual, porque las políticas cambian y respuestas de 18 meses atrás pueden estar rotundamente equivocadas.
  4. Decisión de review-flag. Reemplaza la respuesta redactada con un bloque de “necesita revisión de security” para cualquier pregunta que matchee las reglas en references/3-novel-question-escalation.md: framework no mapeado, compromiso forward-looking, pregunta específica de incidente, referencia específica a arquitectura o contrato del cliente, match de baja confianza, o divergencia respecto a una respuesta previa reciente.

Realidad de costos

Costo de tokens por cuestionario y ahorro de tiempo del analyst por respuesta, con números concretos:

  • SIG-Lite típico (~150 preguntas, ~20k tokens de texto de pregunta). Input ~30k tokens (cuestionario + control library + answer-format reference + criterios de escalación), output ~15k tokens (respuestas redactadas con citas + resumen). Al pricing de Claude Sonnet 4.5 ($3 / MTok input, $15 / MTok output), eso son aproximadamente $0.32 por cuestionario.
  • SIG completo típico (~800 preguntas, ~80k tokens). Input ~95k tokens, output ~60k tokens. Aproximadamente $1.20 por cuestionario.
  • CAIQ v4 típico (~260 preguntas, ~30k tokens). Input ~42k tokens, output ~22k tokens. Aproximadamente $0.45 por cuestionario.
  • Run rate mensual con 20 cuestionarios (10 SIG-Lite + 8 CAIQ + 2 SIG completos). Aproximadamente $9 en costo de tokens. El ahorro de tiempo del analyst lo opaca: un baseline de 4-8 horas por cuestionario bajando a 30-45 minutos de revisión es una recuperación de 70-90 horas de analyst al mes a ese volumen. Una hora de analyst a $120/hr fully loaded cubre el costo del skill de ~370 cuestionarios.

El costo real es el mantenimiento de la library. Security necesita mantener references/1-control-library-template.md actualizado y el índice de evidencia actualizado. Presupuesta dos horas de un security engineer senior por trimestre para refrescar la library, más una hora por trimestre para hacer triage de los patrones de escalación e incorporar las preguntas recurrentes fuera-de-library de vuelta a la library. La staleness de la library es el modo de falla que silenciosamente destruye la calidad de output — el skill alegremente emite respuestas viejas con alta confianza si la library miente acerca de estar actualizada.

Métrica de éxito

Dos métricas, observadas en conjunto, te dicen si el skill está pagando por sí mismo:

  • Reducción de cycle time en la respuesta del cuestionario. Baseline: tiempo mediano desde el intake del cuestionario hasta “listo para firma del deal owner”. Objetivo: reducir la mediana en 70-85%. Un equipo con baseline de 6 horas por cuestionario debería aterrizar entre 45-90 minutos (el skill produce en ~60 segundos; la revisión del analyst se lleva el resto).
  • Tasa de flags por cuestionario. Banda objetivo: 15-30% de preguntas marcadas para revisión del analyst. Por debajo de 10% significa que la library es demasiado permisiva — el skill está dando rubber-stamp a matches de baja confianza como respuestas de alta confianza. Arriba de 40% significa que la library no cubre suficiente terreno y el skill está produciendo mayormente flags. O ajusta la library o suelta el skill en ese tipo de cuestionario hasta que mejore la cobertura.

Un tercer indicador adelantado que vale la pena observar: tasa de follow-up del cliente por pregunta. Si tipos específicos de preguntas consistentemente provocan un follow-up de “por favor aclarar” del cliente, la respuesta canónica en la library es poco clara o está sub-citada. Trackea qué preguntas provocan follow-ups y reescribe esas entradas de library primero.

vs alternativas

La decisión es entre este skill, automatización de cuestionarios construida por vendor, y el status quo manual escrito por el security team:

  • vs Vanta Questionnaires o Drata Trust. Estos son productos SaaS de vendor empaquetados con plataformas más amplias de GRC. Ganan cuando ya usas Vanta o Drata para monitoreo de compliance (las respuestas y la evidencia ya están en la plataforma), cuando quieres un trust center customer-facing como parte del producto, y en velocidad de despliegue si tu control library ya está en la forma estructurada de la plataforma. Pierden cuando tu postura de controles tiene matices inusuales que el banco de preguntas de la plataforma no cubre, cuando quieres transparencia a nivel de token sobre cada respuesta (el skill cita los IDs de sección de tu library; los vendors citan su mapping interno), y en precio (los tiers de plataforma corren miles por mes vs el costo de tokens del skill de aproximadamente $9/mes más la amortización del tiempo del analyst).
  • vs HyperComply o Conveyor. Automatización de cuestionarios AI-nativa como servicio gestionado. Ganan en cero esfuerzo de despliegue y en la garantía a nivel de servicio sobre el turnaround. Pierden en auditabilidad por respuesta (las respuestas salen del modelo del vendor, no de tu library) y en el modelo de privilegio (tu control library vive en un sistema del vendor, no en tu repo donde security y legal la revisan). Elige una de estas si quieres los cuestionarios completamente fuera del plato del equipo in-house y aceptas el trade-off en auditabilidad.
  • vs respuestas manuales escritas por el security team. El status quo en la mayoría de las firmas. Mayor calidad en preguntas nuevas (los humanos pattern-match mejor sobre wording raro), costo mucho más alto por cuestionario, turnaround más lento. El skill no es un reemplazo del analyst — desplaza el tiempo del analyst de tipear-y-buscar a juicio-y-revisión.

El sweet spot del Claude Skill es la firma de volumen mediano con una control library bien documentada y un security team que quiere que la AI haga la primera pasada pero exige revisión del analyst sobre cada output y demanda que cada respuesta trace a un control documentado. Si no puedes señalar la entrada de library detrás de una respuesta, la respuesta no sale.

Cosas para cuidar

  • Una control library vieja produce respuestas confiadamente equivocadas. Un reporte SOC 2 Type II de 2024 citado como evidencia en 2026 va a ser rechazado por cualquier cliente sofisticado. Guardrail: el header de resumen de cada output escribe la fecha last_reviewed de la library y la fecha vigente de cada documento de evidencia citado. El analyst rechaza cualquier draft donde la library sea más antigua que 90 días, refresca y vuelve a correr. El umbral de 90 días está escrito explícitamente en references/3-novel-question-escalation.md como trigger de escalación soft, así el propio skill marca respuestas fronterizamente viejas.
  • Improvisación de respuesta cuando la library no matchea. Un modelo bajo presión para “llenar la celda” va a redactar libremente una respuesta de aspecto plausible. Guardrail: el matching pass emite sin match → flag explícito en lugar de degradar gracefully. El skill se niega a escribir una celda sin un ID de control; las celdas sin cita aparecen en el resumen como marcadas-para-revisión, nunca como respuestas redactadas. Si ves respuestas redactadas sin citas, el bundle fue editado — re-instálalo.
  • Vencimiento de certificación manejado silenciosamente. Un SOC 2 citado como vigente puede haber expirado entre el último refresh de la library y hoy. Guardrail: el índice de evidencia lleva effective_through por documento. Si hoy está después del effective_through, el skill suelta la cita de evidencia y degrada la respuesta a confianza low con una nota de “cert en renovación”. El analyst persigue la cert renovada antes de que el cuestionario vuelva.
  • Compromisos forward-looking tratados como hechos. “¿Vas a soportar customer-managed keys para Q4?” es una pregunta de roadmap, no una pregunta de controles. Redactada como Yes/No, se convierte en una representación contractual. Guardrail: references/3-novel-question-escalation.md lista los patrones lingüísticos (“vas a”, “planeas”, “para qué fecha”) que fuerzan un flag-para-revisión independientemente de la confianza. Las respuestas de roadmap siempre pasan por producto y legal, nunca solo por el skill.
  • Drift de pattern-match desde respuestas previas. La respuesta del año pasado decía “rotación de claves de 365 días”; la política de este año dice 90 días. Reutilizar la respuesta previa crea una representación contractual equivocada. Guardrail: el matching de respuesta previa es solo desempate, nunca override. Cuando una respuesta previa difiere de la entrada actual de library, el skill surfacea la divergencia en el resumen para que el analyst la vea antes de que vuelva.
  • Fuga de privilegio vía vendors que no son Tier A. El contenido del cuestionario es confidencial de la firma y confidencial del cliente simultáneamente. Guardrail: el skill se niega a correr a menos que el modelo configurado aparezca en la lista de vendors permitidos al inicio de references/3-novel-question-escalation.md. Precondición dura; ningún CLI flag la bypassea.

Stack

  • Claude — runtime del Skill (Claude Code o Claude.ai con Skills custom habilitados).
  • El stack de GRC existente de la firma (Vanta, Drata, OneTrust, Whistic, o similar) — sistema de registro para la control library y el índice de evidencia que el skill lee. El skill no reemplaza la plataforma de GRC; se sienta encima de los mismos datos de source-of-truth.
  • Microsoft Excel — para abrir el .xlsx poblado. Los comments por celda llevan el ID de control, ID de evidencia y confidence score para que el analyst pueda auditar sin volver al resumen en markdown.
  • El trust center con NDA o portal de evidencia de la firma — para entregar los documentos de evidencia que el skill cita por ID. Los documentos nunca se adjuntan al archivo del cuestionario directamente.

Archivos de este artefacto

Descargar todo (.zip)