Beta Herramienta en desarrollo activo — los modelos y la interfaz pueden cambiar.
Infobras · Contraloría General · 2018–2024

Predicting Implementation Gaps
in Public Infrastructure

Pipeline de machine learning para predecir si una obra pública peruana terminará después de su fecha programada — e identificar los factores que explican ese retraso.

40,243
obras analizadas
3
modelos (modalidades)
0.872
AUC-ROC (mejor modelo)
~55%
obras con retraso

Resultados del modelo

Métricas sobre el conjunto de test (20% de las observaciones) para el mejor XGBoost por modalidad.

Modalidad Sampling N Brecha % AUC-ROC F1 Score Accuracy
Contrata NRS 20,593 53.5% 0.872 0.799 79.9%
Admin. Directa Original 17,111 60.6% 0.845 0.754 76.2%
ARCC Original 2,539 57.8% 0.821 0.736 74.0%

Regresión Logit (Top-10 features SHAP)

Contrata
AUC 0.852
McFadden R² = 0.325
Admin. Directa
AUC 0.826
McFadden R² = 0.260
ARCC
AUC 0.843
McFadden R² = 0.307

Principales hallazgos

Efectos marginales promedio (AME) del modelo logit — impacto sobre Pr(brecha = 1).

📊 Patrones consistentes (3 modelos)

n_modificaciones — predictor más potente en las 3 modalidades. AME: +44–45 pp por modificación adicional.
n_adicionales_obra — adicionales de obra aumentan la probabilidad. AME: +3–6 pp.
n_informes_control — más informes de control → más riesgo. AME: +2–8 pp.
log_monto_aprobado — proyectos de mayor monto tienen más brecha. AME: +3–6 pp.
Contrata AME destacados
  • 🔴 existe_paralizacion: +26.9 pp (el mayor efecto binario)
  • 🔴 sierra sur / sierra centro-norte: +4.1–4.4 pp
  • 🔴 marca_reconstruccion: +3.4 pp
Admin. Directa
  • 🔴 sierra sur: +7.2 pp
  • 🟢 Transporte Terrestre: −5.9 pp (reduce riesgo)
ARCC
  • 🔴 Educación/Cultura: +6.0 pp
  • 🟢 costa norte: −6.9 pp (reduce riesgo)

Visualizaciones

Selecciona un análisis para explorar los resultados.

Beeswarm plots: cada punto es una observación. El eje X muestra cuánto empuja esa variable la predicción (positivo = más brecha). El color muestra el valor de la variable (rojo = alto, azul = bajo).

CONTRATA — XGB NRS

ADMIN. DIRECTA — XGB O

ARCC — XGB O

Heatmap de efectos marginales promedio del modelo logit. Azul = variable aumenta Pr(brecha). Rojo = reduce. * = p < 0.05.

Variables comunes entre ≥ 2 modalidades:

Curvas ROC del modelo XGBoost sobre el conjunto de test.

CONTRATA (AUC = 0.872)

ADMIN. DIRECTA (AUC = 0.845)

ARCC (AUC = 0.821)

Pipeline metodológico

🧹
01 · Cleaning
Codificación de variables, imputación, filtro de correlación, construcción de brecha_existente
🤖
02 · Modeling
6 algoritmos × 4 samplings · Grid search RF y XGBoost · Evaluación en test set
🔍
03 · SHAP
TreeExplainer vía pred_contribs · Ranking de importancia · Beeswarm plots
📊
04 · Regresión
Logit + LPM · Efectos marginales promedio (AME) · Análisis comparativo
Datos: Infobras (Contraloría General del Perú) · Universo: Gobiernos Locales 2018–2024 · Ver repositorio →

Sobre el autor

Luis Valverde Ramos

Soy politólogo por la PUCP y combino ciencia política con análisis cuantitativo avanzado y machine learning aplicado a política pública — trabajando con organismos del Estado, centros de investigación y el sector privado. Inicié este proyecto como asistente de investigación en el Q-LAB (Laboratorio de Inteligencia Artificial y Métodos Computacionales en Ciencias Sociales, PUCP).

¿Quieres probar el predictor?

Ingresa las características de una obra y obtén la probabilidad estimada de retraso.

Abrir predictor →