Analisis de Sesgo NER y Decision de Aplazamiento (GOB-12)
Sistema: Sherlock-docs v1.0
Entidad: Centro de Servicios Judiciales de Bello, Antioquia — Rama Judicial
Marco normativo: CONPES 3975 (principio de no discriminacion), Guia MinTIC/PNUD, Acuerdo PCSJA24-12243 (Art. 9)
Fecha: 2026-03-19
Version: 1.0
Referencia interna: GOB-12
Tipo de decision: Aplazamiento parcial con mitigaciones implementadas
1. Contexto
La contraauditoria SDD (doc 03) identifico la necesidad de evaluar el pipeline NER (Named Entity Recognition) de Sherlock-docs para detectar posibles sesgos en la extraccion de entidades, particularmente en la clasificacion de DEMANDANTE y DEMANDADO.
1.1 Arquitectura del pipeline NER
| Componente |
Funcion |
Potencial de sesgo |
SpaCy es_core_news_sm |
Modelo base de NER en español |
Medio — entrenado en corpus general, no juridico |
| MarkerExtractor |
Extraccion por marcadores textuales |
Bajo — basado en reglas deterministicas |
| ContextScorer |
Puntuacion por contexto |
Medio — pesos configurados manualmente |
| NER Ensemble |
Votacion entre extractores |
Bajo — deduplicacion y consensus |
| Entity Linker |
Normalizacion de nombres |
Bajo — reglas de normalizacion |
1.2 Metricas actuales
| Metrica |
Valor |
Evaluacion |
| F1 global NER |
85.3% |
Aceptable para MVP con validacion humana |
| Precision DEMANDANTE |
~90% |
Buena |
| Recall DEMANDANTE |
~88% |
Buena |
| Precision DEMANDADO |
~82% |
Aceptable — mejorado en Sprint H |
| Recall DEMANDADO |
~78% |
Aceptable — mejorado en Sprint H (5 causas corregidas) |
Nota: Las metricas desagregadas son estimaciones basadas en pruebas manuales con ~50 documentos de prueba. No se dispone de un corpus anotado formal para evaluacion sistematica.
2. Decision
Se aplaza la evaluacion formal de sesgo desagregada por categoria de nombre hasta que se disponga de un corpus anotado representativo. Se documentan las mitigaciones actualmente implementadas.
3. Justificacion del Aplazamiento
3.1 Ausencia de corpus anotado
| Requisito |
Estado |
| Corpus anotado con >200 documentos reales |
No disponible |
| Anotaciones gold-standard por tipo de nombre (hispano, indigena, afro, extranjero) |
No disponible |
| Acuerdo inter-anotador (IAA) |
No aplicable (un solo anotador) |
| Distribucion representativa por region/etnia |
No disponible |
Razon: Los documentos procesados son tutelas reales con datos personales protegidos por Ley 1581. No se pueden usar como corpus de evaluacion sin anonimizacion previa, lo cual invalidaria la evaluacion de sesgo por nombre.
3.2 Limitaciones del modelo base
SpaCy es_core_news_sm fue entrenado en corpus periodistico general (AnCora + WikiNER). Sus limitaciones conocidas incluyen:
- Menor precision en nombres indigenas y afrocolombianos (subrepresentados en corpus de entrenamiento)
- Confunsion entre nombres propios y toponimos en regiones con nomenclatura indigena
- Mejor desempeno en nombres hispanos comunes (sobrerrepresentados en corpus)
Estas limitaciones son inherentes al modelo pre-entrenado y no pueden corregirse sin fine-tuning o un corpus juridico colombiano anotado.
4. Mitigaciones Implementadas
4.1 Validacion humana obligatoria (mitigacion principal)
| Control |
Implementacion |
Referencia |
| Validacion humana de todas las entidades NER |
Pagina GUI "Validar" — operador revisa y corrige antes de confirmar |
Art. 9, PCSJA24-12243 |
Entidades marcadas como extracted (no validadas) |
Status diferenciado: extracted → validated |
Flujo de trabajo |
| Correccion libre |
Operador puede modificar cualquier campo NER sin restriccion |
Pagina Validar |
| Indicador visual |
Entidades con baja confianza se muestran con advertencia |
GUI process.py |
La validacion humana obligatoria es la mitigacion mas efectiva contra sesgo NER. Ningun resultado del pipeline se acepta automaticamente como verdad; todo pasa por revision humana.
4.2 Mejoras tecnicas implementadas (Sprint H)
| SPEC |
Mejora |
Impacto en sesgo |
| S23-H1 |
Whitelist ORGs sincronizada en MarkerExtractor |
Reduce falsos negativos en entidades corporativas como DEMANDADO |
| S23-H2 |
Fix tie-breaking simetrico en ContextScorer |
Elimina sesgo sistematico que favorecia DEMANDANTE sobre DEMANDADO |
| S23-H3 |
Multi-winner ensemble para DEMANDADO |
Permite multiples demandados (tutelas con litisconsorcio) |
| S23-H4 |
Compound splitter para "Y" |
Separa "X Y Z" en demandados individuales |
| S23-H5 |
Fallback "contra" para DEMANDADO |
Mejora recall via marcadores alternativos |
4.3 Controles de auditoria
| Control |
Descripcion |
| Metricas de correccion |
Tabla processing_stats registra correcciones NER por campo |
CLI correction-stats |
Reporte de tasas de correccion por tipo de entidad |
CLI audit-report |
Reporte consolidado incluyendo estadisticas de correcciones |
5. Tipos de Sesgo Evaluados Cualitativamente
5.1 Sesgo por tipo de nombre
| Tipo de nombre |
Riesgo estimado |
Mitigacion |
| Hispano comun (Garcia, Rodriguez) |
Bajo |
Bien representado en corpus SpaCy |
| Compuesto (Maria del Carmen, Juan de Dios) |
Medio |
Entity Linker normaliza; validacion humana corrige |
| Indigena (Yarumal, Quimbaya) |
Alto |
Confundido con toponimos; validacion humana obligatoria |
| Afrocolombiano |
Medio |
Subrepresentado en corpus; validacion humana obligatoria |
| Extranjero (nombres no hispanicos) |
Medio |
SpaCy reconoce patrones latinos/anglosajones; otros menos |
| Corporativo (EPS, ARL, entidades) |
Bajo |
Whitelist de 45 ORGs (SPEC S23-A6) + KNOWN_SINGLE_WORD_ORGS |
5.2 Sesgo por rol procesal
| Sesgo |
Estado |
Detalle |
| DEMANDANTE favorecido sobre DEMANDADO |
Corregido |
Sprint H — tie-breaking simetrico (S23-H2) |
| DEMANDADO single-winner |
Corregido |
Sprint H — multi-winner ensemble (S23-H3) |
| Personas naturales vs juridicas |
Mitigado |
Whitelist ORGs + corporate suffix detection |
6.1 Prerequisitos
- Corpus de evaluacion: minimo 200 documentos anotados manualmente
- Anonimizacion que preserve la estructura de nombres (reemplazar con nombres sinteticos de igual complejidad)
- Distribucion representativa: al menos 20% nombres no-hispanos comunes
- Dos anotadores independientes para calcular IAA (Inter-Annotator Agreement)
6.2 Metricas a reportar
| Metrica |
Desagregacion |
| F1 por tipo de entidad |
DEMANDANTE, DEMANDADO, RADICADO, JUZGADO, FECHA |
| F1 por tipo de nombre |
Hispano, compuesto, indigena, corporativo |
| Tasa de falsos negativos |
Por tipo de nombre y rol procesal |
| Delta de correccion humana |
Porcentaje de correcciones por categoria |
6.3 Condiciones para re-evaluar
| Condicion |
Trigger |
| Corpus anotado disponible |
Proyecto de anotacion con MinJusticia o universidades |
| F1 degrada en produccion |
Tasa de correccion supera 30% en cualquier campo |
| Queja formal de sesgo |
Reporte de operador o ciudadano sobre discriminacion |
| Regulacion especifica |
Requerimiento explicito del CSJ o de la SIC |
| Fine-tuning del modelo |
Si se entrena modelo NER juridico colombiano |
7. Firmas
| Rol |
Nombre |
Firma |
Fecha |
| Coordinador CSJ Bello |
_____ |
_ |
_ |
| Oficial de Proteccion de Datos |
_____ |
_ |
_ |
Analisis tecnico documentado conforme a GOB-12 y principios de no discriminacion de CONPES 3975. La mitigacion principal (validacion humana obligatoria) cumple Art. 9 del Acuerdo PCSJA24-12243.
Referencias: CONPES 3975, Guia MinTIC/PNUD, Acuerdo PCSJA24-12243, Ley 1581 de 2012
Version: 1.0 — 2026-03-19