Saltar a contenido

Marco Etico para el Uso de Inteligencia Artificial — Sherlock-docs v1.0

Sistema: Sherlock-docs v1.0 Entidad: Centro de Servicios Judiciales de Bello, Antioquia — Rama Judicial Fecha de elaboracion: 2026-03-06 Marco normativo: CONPES 3975 (2019), Acuerdo PCSJA24-12243, Ley 1581 de 2012, Guia MinTIC/PNUD Documentos relacionados: MODEL_CARD.md (GOB-03), EVALUACION_IMPACTO_IA.md (GOB-02), POLITICA_TRATAMIENTO_DATOS.md (GOB-04) Version: 1.0 (Borrador tecnico — requiere revision juridica)


1. Declaracion de Principios

Sherlock-docs incorpora componentes de inteligencia artificial (OCR, NLP, ML) con el proposito exclusivo de asistir a los funcionarios del CSJ de Bello en el registro de documentos judiciales. El sistema se rige por los siguientes principios:

1.1 Principios CONPES 3975 (Marco Etico IA Colombia)

Principio CONPES Aplicacion en Sherlock-docs
Transparencia Avisos "Asistido por IA" en toda pantalla que muestre datos extraidos automaticamente. Model Card publica con metricas detalladas
Explicabilidad Confianza OCR visible por documento; F1 NER publicado por entidad; pesos del ensemble de duplicados configurables
Equidad Ensemble de 5 extractores (1 neural + 4 deterministicos) para mitigar sesgo de modelo individual
No maleficencia Arquitectura 100% local; datos judiciales nunca salen del servidor de la entidad
Responsabilidad Trazabilidad completa via audit_events; toda salida de IA requiere validacion humana
Privacidad Cumplimiento Ley 1581/2012; sin transferencia a terceros; sin APIs externas

1.2 Principios PCSJA24-12243 (Acuerdo Rama Judicial)

El Acuerdo PCSJA24-12243 establece condiciones para el uso de herramientas de IA en la administracion de justicia. Sherlock-docs cumple:

  • Art. 9 — Supervision humana obligatoria: Ningun dato extraido por IA se registra sin revision y confirmacion del funcionario. El sistema no toma decisiones judiciales ni administrativas.
  • Art. 10 — Transparencia e informacion: El sistema muestra avisos claros indicando que los datos fueron extraidos con asistencia de IA y requieren verificacion. La ficha tecnica del sistema (Model Card) esta disponible para consulta.
  • Principio de no autonomia: Sherlock-docs extrae informacion; el funcionario decide. La IA no genera, modifica ni rechaza documentos.

2. Transparencia

2.1 Avisos de IA en la interfaz grafica (GOB-01)

Toda pagina de la GUI que muestre datos procesados por IA incluye un aviso visible:

  • ProcessPage: Aviso durante el procesamiento OCR+NER indicando que los resultados son generados por IA
  • ValidatePage: Aviso recordando que los datos extraidos requieren revision humana antes de guardar
  • DetailPage: Aviso indicando que los datos mostrados fueron extraidos con asistencia de IA

Estos avisos se implementan mediante el hook _shows_ia_data() en PageBase, activado por cada pagina que presenta datos generados por modelos de IA.

2.2 Model Card publica (GOB-03)

La ficha tecnica del sistema (docs/governance/MODEL_CARD.md) documenta:

  • Modelos de IA utilizados (Tesseract, PaddleOCR, SpaCy, TF-IDF, MinHash)
  • Datos de entrenamiento de cada modelo
  • Metricas de rendimiento con valores especificos
  • Limitaciones conocidas y sesgos identificados
  • Usos previstos y usos prohibidos

2.3 Metricas F1 accesibles

Las metricas de precision del sistema NER son publicas y verificables:

Entidad F1 Score Observacion
Radicado 100% Extraccion por patrones deterministicos
Correo 100% Extraccion por patrones deterministicos
Cedula 100% Extraccion por patrones deterministicos
Fecha 81% Multiples formatos de fecha en documentos judiciales
Demandante 74% Limitacion del modelo SpaCy en dominio judicial
Global 85.3% Ensemble de 5 extractores

Estas metricas estan disponibles en la Model Card y en la pagina de estadisticas de la GUI. Los pesos del ensemble de duplicados son configurables por el operador (UX-09).


3. Supervision Humana

3.1 Validacion obligatoria (PCSJA24-12243 Art. 9)

El flujo de trabajo garantiza que ningun dato extraido por IA se convierte en registro oficial sin intervencion humana:

  1. Procesamiento: El sistema extrae datos del documento mediante OCR + NER
  2. Presentacion: Los datos extraidos se muestran al operador con avisos de IA
  3. Revision: El operador revisa campo por campo, comparando con el documento original
  4. Correccion: El operador puede modificar cualquier campo antes de guardar
  5. Confirmacion: Solo al presionar "Guardar" los datos se registran en la base de datos

Los campos radicado y juzgado no son extraidos por IA — requieren entrada manual obligatoria, reforzando el rol del operador humano en el proceso.

3.2 Correcciones registradas en historial

Toda correccion realizada por el operador queda registrada:

  • Tabla audit_events (GOB-06): Registra el evento de correccion con usuario, timestamp, campo modificado, valor anterior y valor nuevo
  • Analisis de correcciones: Las correcciones acumuladas permiten identificar patrones de error del sistema y priorizar mejoras en los modelos

Este registro cumple doble funcion: trazabilidad para rendicion de cuentas y retroalimentacion para mejora continua del sistema.


4. No Discriminacion

4.1 Mitigacion mediante arquitectura ensemble

El sistema NER utiliza un ensemble de 5 extractores con prioridades definidas:

Prioridad Extractor Tipo Sesgo de entrenamiento
1 MarkerExtractor Deterministico (patrones textuales) Ninguno
2 SpaCyExtractor Neural (CNN + embeddings) Si — corpus periodistico europeo
3 RegexExtractor Deterministico (expresiones regulares) Ninguno
4 AddressExtractor Deterministico (patrones de direccion) Ninguno
5 ContactExtractor Deterministico (patrones de contacto) Ninguno

De los 5 extractores, solo 1 (SpaCy) tiene potencial sesgo derivado de sus datos de entrenamiento. Los 4 extractores deterministicos operan con reglas explicitas sin sesgo estadistico. El sistema de prioridades permite que patrones deterministicos prevalezcan cuando detectan la entidad con certeza.

4.2 Limitaciones conocidas del modelo

  • SpaCy es_core_news_lg fue entrenado con corpus de texto periodistico espanol (AnCora + Wikipedia), no con texto judicial colombiano
  • Nombres indigenas, afrocolombianos o de estructura poco comun podrian tener menor tasa de reconocimiento
  • El modelo no ha sido re-entrenado con corpus judicial del CSJ de Bello
  • El F1 de 74% en demandante refleja esta limitacion

4.3 Evaluacion formal pendiente (GOB-12)

No se ha realizado una evaluacion formal de sesgo con corpus diverso de nombres colombianos. Esta evaluacion esta planificada como GOB-12 y deberia incluir:

  • Corpus de prueba con nombres de diversas regiones y etnias colombianas
  • Medicion de F1 desagregada por categoria de nombre
  • Analisis de patrones en las correcciones realizadas por operadores
  • Plan de remediacion si se detectan disparidades significativas

Hasta que esta evaluacion se complete, la validacion humana obligatoria es la principal salvaguarda contra discriminacion algortimica.


5. Privacidad por Diseno

5.1 Arquitectura 100% local

Sherlock-docs fue disenado desde su concepcion con el principio de privacidad por diseno:

  • Sin APIs externas: Todos los modelos de IA (Tesseract, PaddleOCR, SpaCy, scikit-learn, datasketch) se ejecutan localmente en el servidor de la entidad
  • Sin transferencia de datos: Los documentos judiciales y datos personales nunca salen del servidor. No hay comunicacion con servicios en la nube
  • Base de datos local: SQLite con modo WAL, almacenada en el servidor de la entidad
  • Sin telemetria: El sistema no envia metricas de uso ni datos de rendimiento a terceros

5.2 Controles de seguridad implementados

Se han remediado 15 de 16 controles de seguridad identificados en la auditoria de seguridad (Planning 15):

Control Estado
Validacion de inputs (SQL injection, XSS) Implementado
Whitelists para SQL dinamico Implementado
HTML escape en outputs Implementado
Sanitizacion de rutas de archivo Implementado
Limpieza de archivos temporales Implementado
Validacion de tipos de archivo Implementado
SEC-05 — Autenticacion/login Pendiente (GOB-05)

5.3 Cumplimiento Ley 1581 de 2012

El tratamiento de datos personales se rige por la Politica de Tratamiento de Datos (POLITICA_TRATAMIENTO_DATOS.md), que establece:

  • Finalidad exclusiva: registro documental judicial
  • Principio de necesidad: solo se procesan los datos requeridos para el registro
  • Almacenamiento seguro: servidor local de la entidad con acceso restringido
  • Derechos del titular: conforme a lo establecido en la politica de la entidad

6. Rendicion de Cuentas

6.1 Tabla audit_events (GOB-06)

El sistema registra eventos de auditoria en la tabla audit_events con trazabilidad completa:

Campo Descripcion
event_id Identificador unico del evento
event_type Tipo de evento (DOCUMENT_PROCESSED, FIELD_CORRECTED, DOCUMENT_VALIDATED, etc.)
user_id Identificador del operador (cuando GOB-05 este implementado)
document_id Documento asociado al evento
timestamp Fecha y hora del evento (timezone-aware, UTC)
details Detalle del evento en formato JSON (campo modificado, valor anterior, valor nuevo)

6.2 Historial de correcciones por campo

Cada correccion realizada por un operador genera un registro de auditoria que incluye:

  • Campo corregido (demandante, accionado, cedula, correo, etc.)
  • Valor original extraido por IA
  • Valor corregido por el operador
  • Timestamp de la correccion

Este historial permite:

  • Auditar la intervencion humana sobre los datos de IA
  • Identificar campos con alta tasa de error para priorizar mejoras
  • Demostrar que la supervision humana se ejerce efectivamente
  • Responder ante requerimientos de entidades de control

6.3 Trazabilidad de modelos (GOB-07)

La tabla processing_stats registra las versiones de modelos utilizados en cada procesamiento:

  • spacy_model_version: Version del modelo NER utilizado
  • ocr_engine_version: Version del motor OCR utilizado
  • dedup_config_snapshot: Configuracion del ensemble de duplicados al momento del procesamiento

Esto permite rastrear que version de IA produjo cada resultado, facilitando la investigacion de errores y la reproducibilidad.


7. Uso Aceptable del Sistema

7.1 Usos permitidos

El sistema esta autorizado exclusivamente para:

  • Registro documental: Digitalizar y registrar acciones de tutela, habeas corpus e incidentes de desacato recibidos en el CSJ de Bello
  • Busqueda de documentos: Consultar documentos procesados por texto completo (FTS5), cedula, correo, radicado, juzgado u otros campos
  • Deteccion de duplicados: Identificar documentos potencialmente duplicados para evitar doble radicacion
  • Estadisticas operativas: Consultar metricas de productividad (documentos procesados, tiempos, distribuciones por juzgado)
  • Exportacion autorizada: Generar reportes en formato Excel para uso interno de la entidad

7.2 Usos prohibidos

Queda expresamente prohibido utilizar Sherlock-docs para:

  • Decisiones judiciales autonomas: El sistema no puede fundamentar, apoyar ni sustituir decisiones de fondo de los despachos judiciales. La IA extrae datos; no evalua ni califica el contenido de los documentos
  • Perfilamiento de ciudadanos: El sistema no puede usarse para clasificar, puntuar, evaluar riesgos ni construir perfiles de accionantes, accionados o cualquier persona
  • Generacion de textos judiciales: El sistema no genera respuestas, providencias, autos ni ningun tipo de texto judicial. Solo extrae informacion existente en los documentos
  • Transferencia no autorizada de datos: Los datos procesados no pueden ser exportados, copiados ni transferidos a sistemas externos, plataformas en la nube o terceros sin autorizacion expresa del responsable del tratamiento
  • Uso fuera del ambito del CSJ de Bello: La implementacion esta disenada y calibrada para el CSJ de Bello. Su uso en otras entidades requiere evaluacion de impacto previa
  • Vigilancia o monitoreo de funcionarios: Las metricas de productividad tienen fin operativo, no disciplinario

8. Limitaciones y Compromisos de Mejora

8.1 Limitaciones actuales

Limitacion Impacto Mitigacion actual
F1 74% en demandante Nombre del accionante puede ser incorrecto Validacion humana obligatoria
SpaCy no entrenado en dominio judicial Menor precision en terminologia juridica 4 extractores deterministicos complementan
Sin evaluacion formal de sesgo Posible disparidad en nombres no europeos Validacion humana + GOB-12 planificado
Sin autenticacion (SEC-05/GOB-05) No se identifica al operador por credenciales Red interna restringida; GOB-05 planificado
Sin embeddings semanticos en dedup Documentos similares con redaccion diferente pueden no detectarse MinHash + TF-IDF + Entity cubren mayoria de casos
Dependencia de calidad del escaneo Documentos muy degradados producen texto ilegible Dual-engine OCR + indicador de confianza

8.2 Compromisos de mejora

El equipo de desarrollo se compromete a las siguientes acciones de mejora continua:

Compromiso Referencia Plazo estimado
Implementar autenticacion de usuarios GOB-05 / SEC-05 Corto plazo (pre-piloto)
Evaluacion formal de sesgo con corpus diverso GOB-12 Mediano plazo (post-piloto)
Manual de usuario para operadores GOB-08 Mediano plazo
Benchmark trimestral de F1 NER contra documentos reales Model Card sec. 7 Recurrente (trimestral)
Revision anual de este marco etico Recurrente (anual)
Evaluar re-entrenamiento de SpaCy con corpus judicial Fase 2 precision Largo plazo
Implementar Active Learning con correcciones del operador Fase 2 precision Largo plazo

8.3 Mecanismo de reporte de incidentes eticos

Si un funcionario o ciudadano identifica un comportamiento etico cuestionable del sistema (discriminacion, error sistematico, uso indebido), debera reportarlo al Coordinador del CSJ de Bello, quien evaluara la situacion y, de ser necesario, escalara al area juridica de la entidad y al equipo de desarrollo.


Aprobaciones

Rol Nombre Firma Fecha
Desarrollador del sistema _____ _ _
Coordinador CSJ Bello _____ _ _
Area Juridica CSJ _____ _ _

Nota: Este documento es un borrador tecnico que debe ser revisado y aprobado por el area juridica del CSJ de Bello antes de su adopcion formal. Los compromisos de mejora estan sujetos a disponibilidad de recursos y priorizacion institucional.


Referencia: CONPES 3975 (2019), Acuerdo PCSJA24-12243, Ley 1581 de 2012, Guia MinTIC/PNUD Version: 1.0 — 2026-03-06