Tarea 4 - Datos Epidemiológicos y Modelos de Regresión
Predicción de ENT — Integrando hospitalizaciones con determinantes ambientales

Propósito

Esta tarea consolida el análisis epidemiológico integrando datos de egresos hospitalarios con los determinantes ambientales, climáticos y de vegetación construidos en las tareas previas. Desarrollarán modelos de regresión de conteo para estimar asociaciones entre exposición ambiental y hospitalizaciones por enfermedades respiratorias y alérgicas, preparando el terreno para los modelos espacio-temporales de la Tarea 5.

Objetivos de aprendizaje

  • Procesar y limpiar datos de egresos hospitalarios de la Superintendencia de Salud.
  • Integrar información socioeconómica de CASEN y Censo como covariables de ajuste.
  • Construir modelos de regresión Poisson y Binomial Negativa con offsets poblacionales.
  • Evaluar interacciones entre contaminación atmosférica y períodos de floración.
  • Implementar diagnósticos de modelo y validación cruzada temporal.
  • Generar mapas de riesgo relativo y tasas ajustadas por comuna.

Insumos y datos base

Fuentes principales

  • Egresos hospitalarios 2024: Base de datos de la Superintendencia de Salud con registros anonimizados por diagnóstico CIE-10.
  • Datos ambientales: Panel comuna-fecha de Tarea 2 (ambiental_rm.*).
  • Índices de vegetación: Fenología y floración de Tarea 3 (features_vegetacion.parquet).
  • Socioeconómicos: CASEN 2022/2024 y proyecciones censales INE.
  • Geografía: Shapefile/GeoPackage de comunas con población de Tarea 1.

Diagnósticos CIE-10 de interés

  • J00-J06: Infecciones agudas vías respiratorias superiores
  • J12-J18: Neumonía
  • J20-J22: Bronquitis aguda y bronquiolitis
  • J30-J39: Enfermedades vías respiratorias superiores (incluye rinitis alérgica J30)
  • J40-J47: Enfermedades crónicas vías respiratorias inferiores (incluye asma J45)
  • L20-L30: Dermatitis y eczema (potencial componente alérgico)

Estructura de proyecto requerida

data/
  egresos/
    egresos_2024_raw.csv
    diagnosticos_cie10.csv
  socioeconomicos/
    casen_comunal_2024.csv
    censo_proyecciones_2024.csv
  processed/
    egresos_procesados.parquet
    panel_integrado.parquet
models/
  poisson_base.pkl
  negbin_interacciones.pkl
figs/
  tasas_ajustadas_mapa.png
  rr_floracion_no2.png
  diagnosticos_temporales.png
notebooks/
  04_epidemiologia_regresion.ipynb
reports/
  04_resultados_modelos.org

Flujo de trabajo detallado

1) Procesamiento de egresos hospitalarios

  • Descargar y leer base de datos de egresos 2024.
  • Filtrar por región asignada y diagnósticos de interés.
  • Geocodificar comuna de residencia (no de hospital).
  • Agregar por comuna-semana epidemiológica.
  • Calcular tasas brutas por 100,000 habitantes.

2) Integración de determinantes socioeconómicos

  • Procesar CASEN: pobreza multidimensional, escolaridad promedio, hacinamiento, acceso a salud.
  • Estandarizar proyecciones poblacionales por grupo etario.
  • Crear índice de vulnerabilidad social compuesto.
  • Documentar métodos de imputación para datos faltantes.

3) Panel integrado espacio-temporal

  • Unir egresos, ambiente, vegetación y socioeconómicos por [comuna_id, semana_epi, año].
  • Crear rezagos (lags) de 0-4 semanas para exposiciones ambientales.
  • Definir ventanas de exposición acumulada (media móvil 7-14 días).
  • Incluir indicadores estacionales y tendencia temporal.

4) Modelamiento estadístico

Modelo base Poisson

  • Variable respuesta: conteo de hospitalizaciones por comuna-semana
  • Offset: log(población) para modelar tasas
  • Covariables principales: t2m_mean, no2_mean, ndvi_mean, vulnerabilidad
  • Efectos fijos por comuna y mes

Modelo Binomial Negativo con interacciones

  • Mismo setup que Poisson pero con parámetro de dispersión
  • Interacciones clave:
    • no2_mean × flag_floracion
    • t2m_mean × vulnerabilidad_alta
    • ndvi_mean × estación
  • Splines para relaciones no lineales de temperatura

Diagnósticos y validación

  • Test de sobredispersión (Poisson vs NegBin)
  • Residuos de Pearson y deviance
  • Autocorrelación espacial (Moran's I)
  • Validación cruzada temporal (train 2024 Q1-Q3, test Q4)
  • Bootstrap para intervalos de confianza de efectos

5) Visualización de resultados

  • Mapa coroplético de tasas ajustadas y riesgo relativo
  • Serie temporal de casos observados vs predichos por comuna
  • Gráfico de efectos marginales de interacciones
  • Curvas dosis-respuesta para contaminantes principales
  • Tabla resumen de IRR (Incidence Rate Ratios) con IC 95%

Requisitos técnicos

  • Python 3.9+
  • Librerías principales: pandas, geopandas, statsmodels, scikit-learn
  • Para modelos: statsmodels.api.GLM, scipy.stats
  • Visualización: matplotlib, seaborn, plotly
  • Procesamiento paralelo recomendado para bootstrap

Entregables específicos

Código ejecutable

  • Notebook o script Python completo y comentado
  • Funciones modulares para preprocessing, modeling y visualization
  • Configuración reproducible con semillas fijas

Datos procesados

  1. egresos_procesados.parquet: Panel limpio de hospitalizaciones
  2. panel_integrado.parquet: Dataset final para modelamiento
  3. predicciones_comunales.parquet: Tasas predichas y residuos

Reporte técnico (4-6 páginas)

Secciones obligatorias:

  1. Introducción: Hipótesis sobre relación ambiente-salud
  2. Métodos: Descripción de modelos y estrategia de validación
  3. Resultados:
    • Estadísticas descriptivas de hospitalizaciones
    • Tabla de coeficientes principales (IRR con IC)
    • Interpretación de interacciones significativas
  4. Discusión:
    • Limitaciones del análisis ecológico
    • Sesgos potenciales y confusores no medidos
    • Recomendaciones para política pública
  5. Conclusiones: Síntesis de hallazgos principales

Visualizaciones mínimas requeridas

  1. Mapa de tasas de hospitalización ajustadas por edad
  2. Gráfico de interacción NO2 × floración
  3. Serie temporal observado vs predicho (3 comunas ejemplo)
  4. Forest plot de IRR para exposiciones principales
  5. Matriz de correlación de predictores

Evaluación (9 puntos)

Criterio Puntos
Procesamiento correcto de egresos hospitalarios y CIE-10 1.5
Integración apropiada de datos socioeconómicos 1.0
Construcción del panel espacio-temporal con rezagos 1.5
Implementación y diagnóstico de modelos Poisson/NegBin 2.0
Evaluación de interacciones y validación cruzada 1.5
Calidad del reporte y visualizaciones 1.0
Reproducibilidad y documentación del código 0.5
Total 9.0

Preguntas guía para el análisis

  1. ¿Qué diagnósticos respiratorios muestran mayor asociación con NO2 y material particulado?
  2. ¿La relación contaminación-salud se modifica durante períodos de alta actividad vegetal?
  3. ¿Las comunas con mayor vulnerabilidad social presentan efectos más pronunciados?
  4. ¿Existe evidencia de umbrales no lineales para temperatura o contaminantes?
  5. ¿Los rezagos temporales sugieren efectos agudos (0-7 días) o subagudos (7-21 días)?

Tips de implementación

Cálculo de tasas con offset poblacional

La regresión Poisson con offset modela tasas en lugar de conteos:

  • log(μ) = β₀ + β₁X₁ + … + log(población)
  • Equivale a: log(μ/población) = β₀ + β₁X₁ + …
  • IRR = exp(β): cambio multiplicativo en la tasa por unidad de X

Manejo de ceros y valores extremos

  • Para comunas-semanas sin hospitalizaciones, mantener ceros (no eliminar)
  • Considerar zero-inflated models si >30% de ceros
  • Winsorizar outliers extremos de exposición (p99)

Interpretación de interacciones

Para NO2 × floración:

  • Si β₃ > 0: efecto de NO2 amplificado durante floración
  • Graficar efectos marginales para distintos niveles de floración
  • Reportar p-valor de término de interacción, no solo coeficientes

Fecha de entrega

17 de noviembre de 2025 (11:59pm, hora Santiago). Tiempo estimado de dedicación: ~4 días completos de trabajo.

Go to the course's home or to my website.