Infobras · Contraloría General · 2018–2024

Predicting Implementation Gaps
in Public Infrastructure

Pipeline de machine learning para predecir si una obra pública peruana terminará después de su fecha programada — e identificar los factores que explican ese retraso.

🔍 Probar el Predictor Ver código en GitHub

Resultados del modelo

Métricas sobre el conjunto de test (20% de las observaciones) para el mejor XGBoost por modalidad.

Modalidad	Sampling	N	Brecha %	AUC-ROC	F1 Score	Accuracy
Contrata	NRS	20,593	53.5%	0.872	0.799	79.9%
Admin. Directa	Original	17,111	60.6%	0.845	0.754	76.2%
ARCC	Original	2,539	57.8%	0.821	0.736	74.0%

Regresión Logit (Top-10 features SHAP)

Contrata

AUC 0.852

McFadden R² = 0.325

Admin. Directa

AUC 0.826

McFadden R² = 0.260

ARCC

AUC 0.843

McFadden R² = 0.307

Principales hallazgos

Efectos marginales promedio (AME) del modelo logit — impacto sobre Pr(brecha = 1).

📊 Patrones consistentes (3 modelos)

n_modificaciones — predictor más potente en las 3 modalidades. AME: +44–45 pp por modificación adicional.

n_adicionales_obra — adicionales de obra aumentan la probabilidad. AME: +3–6 pp.

n_informes_control — más informes de control → más riesgo. AME: +2–8 pp.

log_monto_aprobado — proyectos de mayor monto tienen más brecha. AME: +3–6 pp.

Contrata AME destacados

🔴 existe_paralizacion: +26.9 pp (el mayor efecto binario)
🔴 sierra sur / sierra centro-norte: +4.1–4.4 pp
🔴 marca_reconstruccion: +3.4 pp

Admin. Directa

🔴 sierra sur: +7.2 pp
🟢 Transporte Terrestre: −5.9 pp (reduce riesgo)

ARCC

🔴 Educación/Cultura: +6.0 pp
🟢 costa norte: −6.9 pp (reduce riesgo)

Visualizaciones

Selecciona un análisis para explorar los resultados.

Beeswarm plots: cada punto es una observación. El eje X muestra cuánto empuja esa variable la predicción (positivo = más brecha). El color muestra el valor de la variable (rojo = alto, azul = bajo).

CONTRATA — XGB NRS

ADMIN. DIRECTA — XGB O

ARCC — XGB O

Heatmap de efectos marginales promedio del modelo logit. Azul = variable aumenta Pr(brecha). Rojo = reduce. * = p < 0.05.

Variables comunes entre ≥ 2 modalidades:

Curvas ROC del modelo XGBoost sobre el conjunto de test.

CONTRATA (AUC = 0.872)

ADMIN. DIRECTA (AUC = 0.845)

ARCC (AUC = 0.821)

Pipeline metodológico

🧹

01 · Cleaning

Codificación de variables, imputación, filtro de correlación, construcción de brecha_existente

🤖

02 · Modeling

6 algoritmos × 4 samplings · Grid search RF y XGBoost · Evaluación en test set

🔍

03 · SHAP

TreeExplainer vía pred_contribs · Ranking de importancia · Beeswarm plots

📊

04 · Regresión

Logit + LPM · Efectos marginales promedio (AME) · Análisis comparativo

Datos: Infobras (Contraloría General del Perú) · Universo: Gobiernos Locales 2018–2024 · Ver repositorio →

Sobre el autor

Luis Valverde Ramos

Soy politólogo por la PUCP y combino ciencia política con análisis cuantitativo avanzado y machine learning aplicado a política pública — trabajando con organismos del Estado, centros de investigación y el sector privado. Inicié este proyecto como asistente de investigación en el Q-LAB (Laboratorio de Inteligencia Artificial y Métodos Computacionales en Ciencias Sociales, PUCP).

Página personal → Q-LAB → GitHub →

Predicting Implementation Gapsin Public Infrastructure