Ficha Tecnica del Sistema de IA — Sherlock-docs v1.0¶

Nombre del sistema: Sherlock-docs Version: 1.0 (MVP) Entidad: Centro de Servicios Judiciales de Bello, Antioquia Fecha de elaboracion: 2026-03-06 Marco normativo: Acuerdo PCSJA24-12243 Art.10, Guia MinTIC/PNUD, CONPES 3975

1. Informacion General¶

Campo	Valor
Proposito	Asistencia en registro de documentos judiciales (tutelas, habeas corpus)
Tipo de IA	OCR (Deep Learning) + NLP (CNN) + ML clasico (TF-IDF, MinHash)
Nivel de autonomia	Nulo — toda salida requiere validacion humana
Toma de decisiones	No. El sistema extrae datos; el funcionario decide
Datos procesados	Documentos judiciales con datos personales
Despliegue	100% local (servidor de la entidad), sin APIs externas

2. Modelos de IA Utilizados¶

2.1 OCR — Tesseract 5.x¶

Aspecto	Detalle
Tipo	Red neuronal LSTM
Idioma	Espanol (`spa`)
Datos de entrenamiento	Corpus generico multilingue (Tesseract Project)
Uso en el sistema	Motor primario para documentos de buena calidad
Confianza promedio	90-93%
Licencia	Apache 2.0

2.2 OCR — PaddleOCR v2.x¶

Aspecto	Detalle
Tipo	Deep Learning (CNN + LSTM + Attention)
Modelos	Deteccion (DB), reconocimiento (CRNN), clasificacion de angulo
Datos de entrenamiento	Corpus PaddlePaddle (Baidu)
Uso en el sistema	Motor secundario para documentos degradados
Licencia	Apache 2.0

2.3 NER — SpaCy `es_core_news_lg` v3.8¶

Aspecto	Detalle
Tipo	Red neuronal CNN + word embeddings
Tamano	~560 MB
Datos de entrenamiento	Corpus espanol generico (AnCora + Wikipedia). No re-entrenado en dominio judicial
Entidades reconocidas	PER (personas), ORG (organizaciones), LOC (lugares), MISC
Uso en el sistema	Extractor prioridad 2 en ensemble de 5 extractores
Licencia	MIT

2.4 TF-IDF + MinHash (Deteccion de Duplicados)¶

Aspecto	Detalle
Tipo	ML clasico (no deep learning)
Implementacion	scikit-learn (TfidfVectorizer) + datasketch (MinHash LSH)
Datos de entrenamiento	No requiere entrenamiento previo — se construye con corpus de la entidad
Uso en el sistema	Vectorizacion de documentos para similitud coseno

3. Metricas de Rendimiento¶

3.1 NER — F1 Score por entidad¶

Entidad	Precision	Recall	F1 Score
Radicado	100%	100%	100%
Correo	100%	100%	100%
Cedula	100%	100%	100%
Fecha	~85%	~78%	81%
Demandante	~80%	~69%	74%
Global			85.3%

3.2 OCR — Confianza promedio¶

Motor	Confianza promedio	Tiempo promedio
Tesseract	90-93%	72s (VPS 2 vCPU)
PaddleOCR	85-90%	90-120s

3.3 Deteccion de duplicados¶

Nivel	Precision	Falsos positivos
SHA-256 (exacto)	100%	0%
Ensemble (MinHash+TF-IDF+Entity)	~90%	~5-10% (operador valida)

4. Limitaciones Conocidas¶

4.1 Limitaciones del modelo NER¶

F1 74% en demandante: El modelo SpaCy fue entrenado en texto periodistico, no judicial. Nombres poco comunes o formatos inusuales (ej: "GARCIA LOPEZ JUAN CARLOS") pueden no ser reconocidos
No extrae radicado ni juzgado: Estos campos son de entrada manual obligatoria
Multiples accionantes: El sistema soporta separacion con ; pero la extraccion automatica puede fallar con mas de 2 accionantes

4.2 Limitaciones del OCR¶

Documentos muy deteriorados (manchas, sellos sobre texto, baja resolucion) pueden producir texto ilegible
Documentos escaneados en angulo pueden perder precision
El sistema mitiga con dual-engine routing y fallback automatico

4.3 Limitaciones de duplicados¶

Sin embeddings semanticos (pendiente Fase 2): documentos con contenido similar pero redaccion diferente pueden no detectarse
Falsos positivos posibles en documentos de la misma persona con diferentes tutelas

5. Evaluacion de Sesgo¶

5.1 Estado actual¶

No se ha realizado una evaluacion formal de sesgo. Esta es una limitacion conocida y se planifica abordar en la fase de mejora continua (GOB-12).

5.2 Mitigaciones existentes¶

El ensemble NER combina 1 modelo neural con 4 extractores deterministicos (regex, marcadores, patrones de contacto). Los extractores deterministicos no tienen sesgo de entrenamiento
La validacion humana obligatoria permite detectar y corregir errores sistematicos
Las correcciones se registran y pueden analizarse para identificar patrones de error

5.3 Riesgos de sesgo identificados¶

Modelo SpaCy entrenado mayoritariamente en texto europeo — nombres indigenas o afrocolombianos podrian tener menor precision
No se ha evaluado con corpus diverso de nombres colombianos

6. Uso Previsto vs Uso Prohibido¶

6.1 Uso previsto¶

Asistencia en registro de documentos judiciales en el CSJ de Bello
Digitalizacion de documentos fisicos
Deteccion de radicaciones duplicadas
Consulta de documentos procesados

6.2 Uso prohibido¶

Toma de decisiones judiciales automatizadas
Clasificacion de ciudadanos por riesgo, perfil o cualquier criterio
Generacion de textos judiciales o respuestas automaticas
Transferencia de datos a sistemas externos sin autorizacion
Uso fuera del ambito del CSJ de Bello sin evaluacion previa

7. Mantenimiento y Actualizaciones¶

Aspecto	Responsable	Frecuencia
Actualizacion de modelos SpaCy	Desarrollador	Semestral (evaluacion)
Actualizacion de Tesseract/PaddleOCR	Desarrollador	Anual
Benchmark F1 NER	Coordinador CSJ + Desarrollador	Trimestral
Revision de esta ficha	Coordinador CSJ	Anual

8. Contacto y Responsabilidad¶

Rol	Responsable
Desarrollador del sistema	_____
Responsable del tratamiento de datos	CSJ de Bello, Antioquia
Soporte tecnico	_____

Formato basado en: Google Model Cards for Model Reporting (Mitchell et al., 2019) Adaptado para: Guia MinTIC/PNUD y Acuerdo PCSJA24-12243 Version: 1.0 — 2026-03-06