Saltar a contenido

Ficha Tecnica del Sistema de IA — Sherlock-docs v1.0

Nombre del sistema: Sherlock-docs Version: 1.0 (MVP) Entidad: Centro de Servicios Judiciales de Bello, Antioquia Fecha de elaboracion: 2026-03-06 Marco normativo: Acuerdo PCSJA24-12243 Art.10, Guia MinTIC/PNUD, CONPES 3975


1. Informacion General

Campo Valor
Proposito Asistencia en registro de documentos judiciales (tutelas, habeas corpus)
Tipo de IA OCR (Deep Learning) + NLP (CNN) + ML clasico (TF-IDF, MinHash)
Nivel de autonomia Nulo — toda salida requiere validacion humana
Toma de decisiones No. El sistema extrae datos; el funcionario decide
Datos procesados Documentos judiciales con datos personales
Despliegue 100% local (servidor de la entidad), sin APIs externas

2. Modelos de IA Utilizados

2.1 OCR — Tesseract 5.x

Aspecto Detalle
Tipo Red neuronal LSTM
Idioma Espanol (spa)
Datos de entrenamiento Corpus generico multilingue (Tesseract Project)
Uso en el sistema Motor primario para documentos de buena calidad
Confianza promedio 90-93%
Licencia Apache 2.0

2.2 OCR — PaddleOCR v2.x

Aspecto Detalle
Tipo Deep Learning (CNN + LSTM + Attention)
Modelos Deteccion (DB), reconocimiento (CRNN), clasificacion de angulo
Datos de entrenamiento Corpus PaddlePaddle (Baidu)
Uso en el sistema Motor secundario para documentos degradados
Licencia Apache 2.0

2.3 NER — SpaCy es_core_news_lg v3.8

Aspecto Detalle
Tipo Red neuronal CNN + word embeddings
Tamano ~560 MB
Datos de entrenamiento Corpus espanol generico (AnCora + Wikipedia). No re-entrenado en dominio judicial
Entidades reconocidas PER (personas), ORG (organizaciones), LOC (lugares), MISC
Uso en el sistema Extractor prioridad 2 en ensemble de 5 extractores
Licencia MIT

2.4 TF-IDF + MinHash (Deteccion de Duplicados)

Aspecto Detalle
Tipo ML clasico (no deep learning)
Implementacion scikit-learn (TfidfVectorizer) + datasketch (MinHash LSH)
Datos de entrenamiento No requiere entrenamiento previo — se construye con corpus de la entidad
Uso en el sistema Vectorizacion de documentos para similitud coseno

3. Metricas de Rendimiento

3.1 NER — F1 Score por entidad

Entidad Precision Recall F1 Score
Radicado 100% 100% 100%
Correo 100% 100% 100%
Cedula 100% 100% 100%
Fecha ~85% ~78% 81%
Demandante ~80% ~69% 74%
Global 85.3%

3.2 OCR — Confianza promedio

Motor Confianza promedio Tiempo promedio
Tesseract 90-93% 72s (VPS 2 vCPU)
PaddleOCR 85-90% 90-120s

3.3 Deteccion de duplicados

Nivel Precision Falsos positivos
SHA-256 (exacto) 100% 0%
Ensemble (MinHash+TF-IDF+Entity) ~90% ~5-10% (operador valida)

4. Limitaciones Conocidas

4.1 Limitaciones del modelo NER

  • F1 74% en demandante: El modelo SpaCy fue entrenado en texto periodistico, no judicial. Nombres poco comunes o formatos inusuales (ej: "GARCIA LOPEZ JUAN CARLOS") pueden no ser reconocidos
  • No extrae radicado ni juzgado: Estos campos son de entrada manual obligatoria
  • Multiples accionantes: El sistema soporta separacion con ; pero la extraccion automatica puede fallar con mas de 2 accionantes

4.2 Limitaciones del OCR

  • Documentos muy deteriorados (manchas, sellos sobre texto, baja resolucion) pueden producir texto ilegible
  • Documentos escaneados en angulo pueden perder precision
  • El sistema mitiga con dual-engine routing y fallback automatico

4.3 Limitaciones de duplicados

  • Sin embeddings semanticos (pendiente Fase 2): documentos con contenido similar pero redaccion diferente pueden no detectarse
  • Falsos positivos posibles en documentos de la misma persona con diferentes tutelas

5. Evaluacion de Sesgo

5.1 Estado actual

No se ha realizado una evaluacion formal de sesgo. Esta es una limitacion conocida y se planifica abordar en la fase de mejora continua (GOB-12).

5.2 Mitigaciones existentes

  • El ensemble NER combina 1 modelo neural con 4 extractores deterministicos (regex, marcadores, patrones de contacto). Los extractores deterministicos no tienen sesgo de entrenamiento
  • La validacion humana obligatoria permite detectar y corregir errores sistematicos
  • Las correcciones se registran y pueden analizarse para identificar patrones de error

5.3 Riesgos de sesgo identificados

  • Modelo SpaCy entrenado mayoritariamente en texto europeo — nombres indigenas o afrocolombianos podrian tener menor precision
  • No se ha evaluado con corpus diverso de nombres colombianos

6. Uso Previsto vs Uso Prohibido

6.1 Uso previsto

  • Asistencia en registro de documentos judiciales en el CSJ de Bello
  • Digitalizacion de documentos fisicos
  • Deteccion de radicaciones duplicadas
  • Consulta de documentos procesados

6.2 Uso prohibido

  • Toma de decisiones judiciales automatizadas
  • Clasificacion de ciudadanos por riesgo, perfil o cualquier criterio
  • Generacion de textos judiciales o respuestas automaticas
  • Transferencia de datos a sistemas externos sin autorizacion
  • Uso fuera del ambito del CSJ de Bello sin evaluacion previa

7. Mantenimiento y Actualizaciones

Aspecto Responsable Frecuencia
Actualizacion de modelos SpaCy Desarrollador Semestral (evaluacion)
Actualizacion de Tesseract/PaddleOCR Desarrollador Anual
Benchmark F1 NER Coordinador CSJ + Desarrollador Trimestral
Revision de esta ficha Coordinador CSJ Anual

8. Contacto y Responsabilidad

Rol Responsable
Desarrollador del sistema _____
Responsable del tratamiento de datos CSJ de Bello, Antioquia
Soporte tecnico _____

Formato basado en: Google Model Cards for Model Reporting (Mitchell et al., 2019) Adaptado para: Guia MinTIC/PNUD y Acuerdo PCSJA24-12243 Version: 1.0 — 2026-03-06