Tarea 4 - Datos Epidemiológicos y Modelos de Regresión
Predicción de ENT — Integrando hospitalizaciones con determinantes ambientales
Propósito
Esta tarea consolida el análisis epidemiológico integrando datos de egresos hospitalarios con los determinantes ambientales, climáticos y de vegetación construidos en las tareas previas. Desarrollarán modelos de regresión de conteo para estimar asociaciones entre exposición ambiental y hospitalizaciones por enfermedades respiratorias y alérgicas, preparando el terreno para los modelos espacio-temporales de la Tarea 5.
Objetivos de aprendizaje
- Procesar y limpiar datos de egresos hospitalarios de la Superintendencia de Salud.
- Integrar información socioeconómica de CASEN y Censo como covariables de ajuste.
- Construir modelos de regresión Poisson y Binomial Negativa con offsets poblacionales.
- Evaluar interacciones entre contaminación atmosférica y períodos de floración.
- Implementar diagnósticos de modelo y validación cruzada temporal.
- Generar mapas de riesgo relativo y tasas ajustadas por comuna.
Insumos y datos base
Fuentes principales
- Egresos hospitalarios 2024: Base de datos de la Superintendencia de Salud con registros anonimizados por diagnóstico CIE-10.
- Datos ambientales: Panel comuna-fecha de Tarea 2
(
ambiental_rm.*). - Índices de vegetación: Fenología y floración de Tarea 3
(
features_vegetacion.parquet). - Socioeconómicos: CASEN 2022/2024 y proyecciones censales INE.
- Geografía: Shapefile/GeoPackage de comunas con población de Tarea 1.
Diagnósticos CIE-10 de interés
- J00-J06: Infecciones agudas vías respiratorias superiores
- J12-J18: Neumonía
- J20-J22: Bronquitis aguda y bronquiolitis
- J30-J39: Enfermedades vías respiratorias superiores (incluye rinitis alérgica J30)
- J40-J47: Enfermedades crónicas vías respiratorias inferiores (incluye asma J45)
- L20-L30: Dermatitis y eczema (potencial componente alérgico)
Estructura de proyecto requerida
data/
egresos/
egresos_2024_raw.csv
diagnosticos_cie10.csv
socioeconomicos/
casen_comunal_2024.csv
censo_proyecciones_2024.csv
processed/
egresos_procesados.parquet
panel_integrado.parquet
models/
poisson_base.pkl
negbin_interacciones.pkl
figs/
tasas_ajustadas_mapa.png
rr_floracion_no2.png
diagnosticos_temporales.png
notebooks/
04_epidemiologia_regresion.ipynb
reports/
04_resultados_modelos.org
Flujo de trabajo detallado
1) Procesamiento de egresos hospitalarios
- Descargar y leer base de datos de egresos 2024.
- Filtrar por región asignada y diagnósticos de interés.
- Geocodificar comuna de residencia (no de hospital).
- Agregar por comuna-semana epidemiológica.
- Calcular tasas brutas por 100,000 habitantes.
2) Integración de determinantes socioeconómicos
- Procesar CASEN: pobreza multidimensional, escolaridad promedio, hacinamiento, acceso a salud.
- Estandarizar proyecciones poblacionales por grupo etario.
- Crear índice de vulnerabilidad social compuesto.
- Documentar métodos de imputación para datos faltantes.
3) Panel integrado espacio-temporal
- Unir egresos, ambiente, vegetación y socioeconómicos por [comuna_id, semana_epi, año].
- Crear rezagos (lags) de 0-4 semanas para exposiciones ambientales.
- Definir ventanas de exposición acumulada (media móvil 7-14 días).
- Incluir indicadores estacionales y tendencia temporal.
4) Modelamiento estadístico
Modelo base Poisson
- Variable respuesta: conteo de hospitalizaciones por comuna-semana
- Offset: log(población) para modelar tasas
- Covariables principales: t2m_mean, no2_mean, ndvi_mean, vulnerabilidad
- Efectos fijos por comuna y mes
Modelo Binomial Negativo con interacciones
- Mismo setup que Poisson pero con parámetro de dispersión
- Interacciones clave:
- no2_mean × flag_floracion
- t2m_mean × vulnerabilidad_alta
- ndvi_mean × estación
- Splines para relaciones no lineales de temperatura
Diagnósticos y validación
- Test de sobredispersión (Poisson vs NegBin)
- Residuos de Pearson y deviance
- Autocorrelación espacial (Moran's I)
- Validación cruzada temporal (train 2024 Q1-Q3, test Q4)
- Bootstrap para intervalos de confianza de efectos
5) Visualización de resultados
- Mapa coroplético de tasas ajustadas y riesgo relativo
- Serie temporal de casos observados vs predichos por comuna
- Gráfico de efectos marginales de interacciones
- Curvas dosis-respuesta para contaminantes principales
- Tabla resumen de IRR (Incidence Rate Ratios) con IC 95%
Requisitos técnicos
- Python 3.9+
- Librerías principales:
pandas,geopandas,statsmodels,scikit-learn - Para modelos:
statsmodels.api.GLM,scipy.stats - Visualización:
matplotlib,seaborn,plotly - Procesamiento paralelo recomendado para bootstrap
Entregables específicos
Código ejecutable
- Notebook o script Python completo y comentado
- Funciones modulares para preprocessing, modeling y visualization
- Configuración reproducible con semillas fijas
Datos procesados
egresos_procesados.parquet: Panel limpio de hospitalizacionespanel_integrado.parquet: Dataset final para modelamientopredicciones_comunales.parquet: Tasas predichas y residuos
Reporte técnico (4-6 páginas)
Secciones obligatorias:
- Introducción: Hipótesis sobre relación ambiente-salud
- Métodos: Descripción de modelos y estrategia de validación
- Resultados:
- Estadísticas descriptivas de hospitalizaciones
- Tabla de coeficientes principales (IRR con IC)
- Interpretación de interacciones significativas
- Discusión:
- Limitaciones del análisis ecológico
- Sesgos potenciales y confusores no medidos
- Recomendaciones para política pública
- Conclusiones: Síntesis de hallazgos principales
Visualizaciones mínimas requeridas
- Mapa de tasas de hospitalización ajustadas por edad
- Gráfico de interacción NO2 × floración
- Serie temporal observado vs predicho (3 comunas ejemplo)
- Forest plot de IRR para exposiciones principales
- Matriz de correlación de predictores
Evaluación (9 puntos)
| Criterio | Puntos |
|---|---|
| Procesamiento correcto de egresos hospitalarios y CIE-10 | 1.5 |
| Integración apropiada de datos socioeconómicos | 1.0 |
| Construcción del panel espacio-temporal con rezagos | 1.5 |
| Implementación y diagnóstico de modelos Poisson/NegBin | 2.0 |
| Evaluación de interacciones y validación cruzada | 1.5 |
| Calidad del reporte y visualizaciones | 1.0 |
| Reproducibilidad y documentación del código | 0.5 |
| Total | 9.0 |
Preguntas guía para el análisis
- ¿Qué diagnósticos respiratorios muestran mayor asociación con NO2 y material particulado?
- ¿La relación contaminación-salud se modifica durante períodos de alta actividad vegetal?
- ¿Las comunas con mayor vulnerabilidad social presentan efectos más pronunciados?
- ¿Existe evidencia de umbrales no lineales para temperatura o contaminantes?
- ¿Los rezagos temporales sugieren efectos agudos (0-7 días) o subagudos (7-21 días)?
Tips de implementación
Cálculo de tasas con offset poblacional
La regresión Poisson con offset modela tasas en lugar de conteos:
- log(μ) = β₀ + β₁X₁ + … + log(población)
- Equivale a: log(μ/población) = β₀ + β₁X₁ + …
- IRR = exp(β): cambio multiplicativo en la tasa por unidad de X
Manejo de ceros y valores extremos
- Para comunas-semanas sin hospitalizaciones, mantener ceros (no eliminar)
- Considerar zero-inflated models si >30% de ceros
- Winsorizar outliers extremos de exposición (p99)
Interpretación de interacciones
Para NO2 × floración:
- Si β₃ > 0: efecto de NO2 amplificado durante floración
- Graficar efectos marginales para distintos niveles de floración
- Reportar p-valor de término de interacción, no solo coeficientes
Fecha de entrega
17 de noviembre de 2025 (11:59pm, hora Santiago). Tiempo estimado de dedicación: ~4 días completos de trabajo.
—
Go to the course's home or to my website.