Saltar al contenido / Skip to content
Vibe-DLP · capacidades técnicas

Un motor que entiende prompts, no sólo cadenas

Sovprompt es la implementación de referencia de Vibe-DLP: regex curada de alta precisión, modelo NER multilingüe y listas custom compiladas desde lenguaje natural — todo corriendo en el navegador, antes de que el texto salga hacia un LLM externo.

Motor híbrido

Tres capas que se complementan, no compiten

Validado por benchmarks académicos (RECAP 2025): hybrid regex + LLM supera a NER fine-tuned por 82% en F1. Nadie pierde en la combinación.

Capa 1

Regex curada

Patrones de alto valor compilados y testeados: 30+ tipos de secrets (AWS, OpenAI, Anthropic, GitHub, Stripe, Slack, Google), JWTs, claves PEM, tarjetas con validación Luhn, IBAN, SSN, CBU, CUIT, RFC.

Sub-milisegundo · 100% recall en patrones estructurados

Capa 2

Modelo NER multilingüe

Piiranha-v1 (DeBERTa-v3) corriendo con transformers.js + WebGPU. Detecta nombres, direcciones, fechas, datos contextuales en español, inglés, portugués, francés, alemán, italiano y neerlandés.

F1 0.93 · 6 idiomas · 100% local

Capa 3

Allow / Deny custom

Compilada desde tu Vibe-Config. Fuerza la detección de proyectos internos (Aurora, Phoenix), nombres de productos no anunciados, codenames de M&A. Excluye terminología que el modelo confunde.

100% bajo tu control · Versionable como código

Cobertura

8 categorías de datos sensibles

No es una checklist genérica de PII. Cada categoría tiene patrones validados con datos reales LATAM y baseline pre-cargado por industria.

Secretos y credenciales

  • AKIA…XYZ (AWS)
  • sk-ant-api03-…
  • ghp_…
  • eyJhbGciOi… (JWT)
Regex

Datos financieros

  • 4532 1234 5678 9012
  • IBAN AR12 0070 0000…
  • CBU 22 dígitos
  • CVV
Regex + Luhn

Identificadores legales

  • CUIT 30-12345678-9
  • DNI 35.123.456
  • SSN
  • RFC mexicano
Regex

Personas (PII)

  • Juan Pérez
  • Ana María Rodríguez Salgado
  • Dr. Schwartz
NER

Ubicaciones y direcciones

  • Av. Corrientes 1234, CABA
  • Rua das Flores 250
  • 10001 NY
NER

Fechas sensibles

  • Nacido el 15/03/1985
  • Fecha de admisión 12-jul-2024
NER

Datos clínicos (PHI)

  • Diagnóstico: HIV+
  • Historia clínica #28491
  • ICD-10 F32.1
NER + Regex

Propiedad intelectual

  • Proyecto Aurora
  • Codename Phoenix
  • Cliente: Banco Galicia
Custom
Modal de confirmación

El usuario ve qué se va a redactar — antes de enviarlo

Cero magia opaca. Cada vez que se intercepta un prompt, el usuario decide si aplicar la redacción, ajustarla o cancelar el envío.

Sovprompt detectó datos sensibles
3 hallazgos

Hola, necesito ayuda con el cliente Juan Pérez, CUIT 30-71234567-8. Su proyecto Aurora está atrasado.

Se enviará: "...con el cliente [NAME_1], CUIT [CUIT_1]. Su proyecto [PROJECT_1] está atrasado."

NER · PERSON Regex · CUIT Custom · proyectos internos

Severidad y origen visibles

Cada hallazgo muestra qué capa lo detectó (regex / NER / custom) y la severidad que tú definiste en la política.

Decisión por defecto configurable

Modo permisivo (alerta + envío redactado), estricto (bloqueo total) o silencioso (auto-redact sin modal) según la política.

Audit log siempre activo

Cada decisión queda registrada con hash del prompt original, hallazgos y acción. Sin guardar el texto en claro.

Tokenización reversible

Mantén la utilidad del prompt sin filtrar el dato

Reemplazamos cada hallazgo con un placeholder estable. Cuando el LLM responde, re-hidratamos los valores reales en el DOM — el usuario ve la respuesta completa, el LLM nunca vio el dato.

01Local

Original (en tu navegador)

"Envíale un mail a juan.perez@bancogalicia.com sobre la cuenta 0070123456789012345678 del cliente Juan Pérez."
02Redactado

Lo que el LLM recibe

"Envíale un mail a [EMAIL_1] sobre la cuenta [CBU_1] del cliente [NAME_1]."
03Re-hidratado

Lo que tú ves en pantalla

"Hola Juan,\n\nTe escribo respecto a tu cuenta 0070...5678. ¿Puedes confirmarnos…"

El mapa token → valor nunca sale del cliente. Ni Sovprompt, ni el LLM, ni el backend lo ven.

Multi-sitio

250+ herramientas IA cubiertas

Adapters versionados para los sitios más usados, fallback genérico para el resto. Si tu equipo lo usa, lo cubrimos.

ChatGPTClaude.aiGeminiCopilotPerplexityDeepSeekMistral Le ChatGrokv0Cursor (web)LovableBoltNotion AI+ 240 más
Browsers soportados

Chromium, Firefox y Safari

Manifest V3 nativo. Sin agentes de endpoint, sin proxy intermedio, sin certificados raíz. Una extensión es todo lo que tu equipo instala.

Chrome / Edge / Brave

v110+

Firefox

v115+

Safari

v17+ (beta)

Arc / Opera / Vivaldi

vía Chromium

Performance

Suficientemente rápido para que nadie lo desactive

Si la herramienta de seguridad rompe el flow, los usuarios encuentran cómo evitarla. Sovprompt corre en paralelo al typing — la mayoría de los prompts se evalúan antes de que termines de escribir.

<200ms

latencia P95 con WebGPU activo

<35MB

modelo cuantizado a INT8

0

round-trips de red en modo Sovereign

F1 0.93

en datasets reales multilingües

Comparativa de motores

Por qué híbrido le gana a regex-only y a modelo-only

Ningún enfoque solo cubre todo. Sovprompt los ensambla y los hace co-validar.

MétricaRegex-onlyModelo-onlySovprompt híbrido
Recall en API keys100%12%100%
Recall en nombres en español0%0.910.93
Recall en direcciones LATAM0%0.840.89
Falsos positivos / 1k tokensBajosAltosBajos
Latencia P95<5ms~150ms~180ms
Custom domain (proyectos internos)ManualImposibleVibe-Config

Datos en datasets internos sobre prompts reales LATAM (n=12,400). Los números de modelo-only están alineados con el benchmark Tonic.ai sobre openai/privacy-filter.

Pruébalo con tus prompts reales

Implementación guiada por el equipo de Radical. Sesión técnica de 30 minutos para arrancar el piloto.