Saltar a contenido

Analisis de Sesgo NER y Decision de Aplazamiento (GOB-12)

Sistema: Sherlock-docs v1.0 Entidad: Centro de Servicios Judiciales de Bello, Antioquia — Rama Judicial Marco normativo: CONPES 3975 (principio de no discriminacion), Guia MinTIC/PNUD, Acuerdo PCSJA24-12243 (Art. 9) Fecha: 2026-03-19 Version: 1.0 Referencia interna: GOB-12 Tipo de decision: Aplazamiento parcial con mitigaciones implementadas


1. Contexto

La contraauditoria SDD (doc 03) identifico la necesidad de evaluar el pipeline NER (Named Entity Recognition) de Sherlock-docs para detectar posibles sesgos en la extraccion de entidades, particularmente en la clasificacion de DEMANDANTE y DEMANDADO.

1.1 Arquitectura del pipeline NER

Componente Funcion Potencial de sesgo
SpaCy es_core_news_sm Modelo base de NER en español Medio — entrenado en corpus general, no juridico
MarkerExtractor Extraccion por marcadores textuales Bajo — basado en reglas deterministicas
ContextScorer Puntuacion por contexto Medio — pesos configurados manualmente
NER Ensemble Votacion entre extractores Bajo — deduplicacion y consensus
Entity Linker Normalizacion de nombres Bajo — reglas de normalizacion

1.2 Metricas actuales

Metrica Valor Evaluacion
F1 global NER 85.3% Aceptable para MVP con validacion humana
Precision DEMANDANTE ~90% Buena
Recall DEMANDANTE ~88% Buena
Precision DEMANDADO ~82% Aceptable — mejorado en Sprint H
Recall DEMANDADO ~78% Aceptable — mejorado en Sprint H (5 causas corregidas)

Nota: Las metricas desagregadas son estimaciones basadas en pruebas manuales con ~50 documentos de prueba. No se dispone de un corpus anotado formal para evaluacion sistematica.


2. Decision

Se aplaza la evaluacion formal de sesgo desagregada por categoria de nombre hasta que se disponga de un corpus anotado representativo. Se documentan las mitigaciones actualmente implementadas.


3. Justificacion del Aplazamiento

3.1 Ausencia de corpus anotado

Requisito Estado
Corpus anotado con >200 documentos reales No disponible
Anotaciones gold-standard por tipo de nombre (hispano, indigena, afro, extranjero) No disponible
Acuerdo inter-anotador (IAA) No aplicable (un solo anotador)
Distribucion representativa por region/etnia No disponible

Razon: Los documentos procesados son tutelas reales con datos personales protegidos por Ley 1581. No se pueden usar como corpus de evaluacion sin anonimizacion previa, lo cual invalidaria la evaluacion de sesgo por nombre.

3.2 Limitaciones del modelo base

SpaCy es_core_news_sm fue entrenado en corpus periodistico general (AnCora + WikiNER). Sus limitaciones conocidas incluyen:

  • Menor precision en nombres indigenas y afrocolombianos (subrepresentados en corpus de entrenamiento)
  • Confunsion entre nombres propios y toponimos en regiones con nomenclatura indigena
  • Mejor desempeno en nombres hispanos comunes (sobrerrepresentados en corpus)

Estas limitaciones son inherentes al modelo pre-entrenado y no pueden corregirse sin fine-tuning o un corpus juridico colombiano anotado.


4. Mitigaciones Implementadas

4.1 Validacion humana obligatoria (mitigacion principal)

Control Implementacion Referencia
Validacion humana de todas las entidades NER Pagina GUI "Validar" — operador revisa y corrige antes de confirmar Art. 9, PCSJA24-12243
Entidades marcadas como extracted (no validadas) Status diferenciado: extracted → validated Flujo de trabajo
Correccion libre Operador puede modificar cualquier campo NER sin restriccion Pagina Validar
Indicador visual Entidades con baja confianza se muestran con advertencia GUI process.py

La validacion humana obligatoria es la mitigacion mas efectiva contra sesgo NER. Ningun resultado del pipeline se acepta automaticamente como verdad; todo pasa por revision humana.

4.2 Mejoras tecnicas implementadas (Sprint H)

SPEC Mejora Impacto en sesgo
S23-H1 Whitelist ORGs sincronizada en MarkerExtractor Reduce falsos negativos en entidades corporativas como DEMANDADO
S23-H2 Fix tie-breaking simetrico en ContextScorer Elimina sesgo sistematico que favorecia DEMANDANTE sobre DEMANDADO
S23-H3 Multi-winner ensemble para DEMANDADO Permite multiples demandados (tutelas con litisconsorcio)
S23-H4 Compound splitter para "Y" Separa "X Y Z" en demandados individuales
S23-H5 Fallback "contra" para DEMANDADO Mejora recall via marcadores alternativos

4.3 Controles de auditoria

Control Descripcion
Metricas de correccion Tabla processing_stats registra correcciones NER por campo
CLI correction-stats Reporte de tasas de correccion por tipo de entidad
CLI audit-report Reporte consolidado incluyendo estadisticas de correcciones

5. Tipos de Sesgo Evaluados Cualitativamente

5.1 Sesgo por tipo de nombre

Tipo de nombre Riesgo estimado Mitigacion
Hispano comun (Garcia, Rodriguez) Bajo Bien representado en corpus SpaCy
Compuesto (Maria del Carmen, Juan de Dios) Medio Entity Linker normaliza; validacion humana corrige
Indigena (Yarumal, Quimbaya) Alto Confundido con toponimos; validacion humana obligatoria
Afrocolombiano Medio Subrepresentado en corpus; validacion humana obligatoria
Extranjero (nombres no hispanicos) Medio SpaCy reconoce patrones latinos/anglosajones; otros menos
Corporativo (EPS, ARL, entidades) Bajo Whitelist de 45 ORGs (SPEC S23-A6) + KNOWN_SINGLE_WORD_ORGS

5.2 Sesgo por rol procesal

Sesgo Estado Detalle
DEMANDANTE favorecido sobre DEMANDADO Corregido Sprint H — tie-breaking simetrico (S23-H2)
DEMANDADO single-winner Corregido Sprint H — multi-winner ensemble (S23-H3)
Personas naturales vs juridicas Mitigado Whitelist ORGs + corporate suffix detection

6. Plan de Evaluacion Formal (cuando sea factible)

6.1 Prerequisitos

  1. Corpus de evaluacion: minimo 200 documentos anotados manualmente
  2. Anonimizacion que preserve la estructura de nombres (reemplazar con nombres sinteticos de igual complejidad)
  3. Distribucion representativa: al menos 20% nombres no-hispanos comunes
  4. Dos anotadores independientes para calcular IAA (Inter-Annotator Agreement)

6.2 Metricas a reportar

Metrica Desagregacion
F1 por tipo de entidad DEMANDANTE, DEMANDADO, RADICADO, JUZGADO, FECHA
F1 por tipo de nombre Hispano, compuesto, indigena, corporativo
Tasa de falsos negativos Por tipo de nombre y rol procesal
Delta de correccion humana Porcentaje de correcciones por categoria

6.3 Condiciones para re-evaluar

Condicion Trigger
Corpus anotado disponible Proyecto de anotacion con MinJusticia o universidades
F1 degrada en produccion Tasa de correccion supera 30% en cualquier campo
Queja formal de sesgo Reporte de operador o ciudadano sobre discriminacion
Regulacion especifica Requerimiento explicito del CSJ o de la SIC
Fine-tuning del modelo Si se entrena modelo NER juridico colombiano

7. Firmas

Rol Nombre Firma Fecha
Coordinador CSJ Bello _____ _ _
Oficial de Proteccion de Datos _____ _ _

Analisis tecnico documentado conforme a GOB-12 y principios de no discriminacion de CONPES 3975. La mitigacion principal (validacion humana obligatoria) cumple Art. 9 del Acuerdo PCSJA24-12243.

Referencias: CONPES 3975, Guia MinTIC/PNUD, Acuerdo PCSJA24-12243, Ley 1581 de 2012 Version: 1.0 — 2026-03-19