# ======================================================================================
# 0. INSTALACIÓN / IMPORTS / CONFIGURACIÓN GENERAL
# ======================================================================================

# Este notebook está diseñado para Google Colab + BigQuery.
# Si alguna librería no está disponible, se intenta instalar de forma controlada.

import sys
import os
import warnings
warnings.filterwarnings("ignore")

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path

try:
    from google.colab import auth
    IN_COLAB = True
except Exception:
    IN_COLAB = False

try:
    from google.cloud import bigquery
except Exception:
    !pip -q install google-cloud-bigquery pyarrow db-dtypes
    from google.cloud import bigquery

# Estilo gráfico sobrio y apto para presentación ejecutiva.
plt.rcParams["figure.figsize"] = (10, 5)
plt.rcParams["axes.grid"] = True
plt.rcParams["axes.spines.top"] = False
plt.rcParams["axes.spines.right"] = False
plt.rcParams["font.size"] = 10

RANDOM_STATE = 42
TARGET = "reclamo_comercial"
OUTPUT_DIR = Path("/content/capstone_outputs_V6_0_regresion_logistica_menos_variables")
GRAF_DIR = OUTPUT_DIR / "graficos"
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
GRAF_DIR.mkdir(parents=True, exist_ok=True)

print("Output dir:", OUTPUT_DIR)
print("Random state:", RANDOM_STATE)


def print_step(title):
    print("\n" + "="*100)
    print(title)
    print("="*100)


def savefig(name):
    path = GRAF_DIR / name
    plt.tight_layout()
    plt.savefig(path, dpi=160, bbox_inches="tight")
    print("[GRAFICO] Guardado:", path)
    plt.show()


def safe_rate(num, den):
    return np.where(np.asarray(den) == 0, 0, np.asarray(num) / np.asarray(den))

# Librerías ML / estadística para V5.0
try:
    from sklearn.model_selection import train_test_split
    from sklearn.compose import ColumnTransformer
    from sklearn.pipeline import Pipeline
    from sklearn.preprocessing import OneHotEncoder, StandardScaler
    from sklearn.impute import SimpleImputer
    from sklearn.linear_model import LogisticRegression
    from sklearn.calibration import CalibratedClassifierCV, calibration_curve
    from sklearn.metrics import (
        confusion_matrix, classification_report, roc_auc_score, average_precision_score,
        precision_recall_curve, roc_curve, brier_score_loss, accuracy_score,
        precision_score, recall_score, f1_score, balanced_accuracy_score, matthews_corrcoef,
        cohen_kappa_score
    )
except Exception:
    !pip -q install scikit-learn statsmodels
    from sklearn.model_selection import train_test_split
    from sklearn.compose import ColumnTransformer
    from sklearn.pipeline import Pipeline
    from sklearn.preprocessing import OneHotEncoder, StandardScaler
    from sklearn.impute import SimpleImputer
    from sklearn.linear_model import LogisticRegression
    from sklearn.calibration import CalibratedClassifierCV, calibration_curve
    from sklearn.metrics import (
        confusion_matrix, classification_report, roc_auc_score, average_precision_score,
        precision_recall_curve, roc_curve, brier_score_loss, accuracy_score,
        precision_score, recall_score, f1_score, balanced_accuracy_score, matthews_corrcoef,
        cohen_kappa_score
    )

try:
    import statsmodels.api as sm
    HAS_STATSMODELS = True
except Exception:
    HAS_STATSMODELS = False

VERSION_MODELO = "V6.0 — Regresión Logística Experta con Menos Variables"
SHAP_ACTIVO = False
print("Versión:", VERSION_MODELO)
print("SHAP activo:", SHAP_ACTIVO)


# Parámetros económicos expertos para optimización de umbral y selección de modelo.
COSTO_RECLAMO_USD = 60000      # valor central del rango observado USD 40k–80k.
COSTO_REVISION_FP_USD = 1500   # costo operacional de revisar/bloquear una falsa alarma.
BETA_F = 2                     # F2 prioriza Recall sobre Precision.
MIN_RECALL_VALIDACION_DESEADO = 0.30
print("Parámetros económicos V5.1:", COSTO_RECLAMO_USD, COSTO_REVISION_FP_USD)


# Parámetros V6.0: menos variables y laboratorio de modelos.
MAX_VARIABLES_V6 = 18
MIN_VARIABLES_V6 = 8
TOPK_GRID = [0.01, 0.02, 0.03, 0.05, 0.075, 0.10, 0.15, 0.20]
THRESHOLD_GRID = np.array([0.01, 0.02, 0.03, 0.04, 0.05, 0.075, 0.10, 0.125, 0.15, 0.20, 0.25, 0.30, 0.40, 0.50])

try:
    from sklearn.metrics import fbeta_score
except Exception:
    pass

print("Máximo variables finales V6.0:", MAX_VARIABLES_V6)

Output dir: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables
Random state: 42
Versión: V6.0 — Regresión Logística Experta con Menos Variables
SHAP activo: False
Parámetros económicos V5.1: 60000 1500
Máximo variables finales V6.0: 18

# ======================================================================================
# 1. AUTENTICACIÓN Y CARGA ROBUSTA DE TABLAS BIGQUERY
# ======================================================================================

print_step("AUTENTICACIÓN Y CARGA DE DATOS BIGQUERY")

# En Colab, esto solicitará autorización de Google.
if IN_COLAB:
    try:
        auth.authenticate_user()
        print("[OK] Autenticación Google completada.")
    except Exception as e:
        print("[WARNING] No se pudo autenticar automáticamente:", e)

# Ajustar si tu proyecto cambia.
PROJECT_ID = "capstone-ml-clasificacion"
DATASET_ID = "capstone_ml_ds"
LOCATION = "US"

client = bigquery.Client(project=PROJECT_ID, location=LOCATION)

# Diccionario completo esperado para V4.0.
# Si alguna tabla no existe, no se detiene la auditoría; se deja documentado.
TABLES = {
    # 1) Tablas operacionales principales
    "dim": "dim_cuarteles",
    "clima": "fact_clima",
    "cosecha": "fact_cosecha",
    "expo": "fact_exportacion",
    "insp": "fact_inspeccion_destino",

    # 2) Tablas documentales reales de reclamos
    "reclamo_documento_cabecera": "fact_reclamo_documento_cabecera",
    "reclamo_factura_detalle": "fact_reclamo_factura_detalle",
    "reclamo_nota_credito_detalle": "fact_reclamo_nota_credito_detalle",
    "reclamo_ff_detalle": "fact_reclamo_ff_detalle",

    # 3) Tablas HAB / calidad
    "hab_parametro": "dim_hab_parametro_calidad",
    "hab_defecto": "dim_hab_defecto_calidad",
    "hab_causa_defecto": "bridge_hab_causa_defecto",
    "hab_protocolo": "dim_hab_protocolo_operacional",
    "hab_etapa": "dim_hab_etapa_cadena",
    "hab_principio": "dim_hab_principio_gestion_calidad",
}

# Listar tablas reales del dataset para validar nombres y evitar errores 404 silenciosos.
try:
    tables_real = [t.table_id for t in client.list_tables(f"{PROJECT_ID}.{DATASET_ID}")]
    print("Tablas disponibles en BigQuery:")
    for t in sorted(tables_real):
        print(" -", t)
except Exception as e:
    tables_real = []
    print("[WARNING] No se pudo listar tablas del dataset:", e)

# Carga robusta: si una tabla no existe, se crea DataFrame vacío y continúa.
data = {}
load_audit = []

for alias, table_name in TABLES.items():
    full_table = f"`{PROJECT_ID}.{DATASET_ID}.{table_name}`"
    print(f"\nCargando {alias}: {table_name}...")
    try:
        df_tmp = client.query(f"SELECT * FROM {full_table}").to_dataframe()
        data[alias] = df_tmp
        print(f"[OK] {alias}: {df_tmp.shape}")
        load_audit.append({"alias": alias, "tabla": table_name, "estado": "OK", "filas": df_tmp.shape[0], "columnas": df_tmp.shape[1], "error": ""})
    except Exception as e:
        data[alias] = pd.DataFrame()
        print(f"[WARNING] No se pudo cargar {table_name}: {e}")
        load_audit.append({"alias": alias, "tabla": table_name, "estado": "ERROR", "filas": 0, "columnas": 0, "error": str(e)[:300]})

load_audit_df = pd.DataFrame(load_audit)
display(load_audit_df)
load_audit_df.to_csv(OUTPUT_DIR / "auditoria_carga_tablas.csv", index=False)

# Variables cómodas para usar en el resto del notebook.
dim = data.get("dim", pd.DataFrame())
clima = data.get("clima", pd.DataFrame())
cosecha = data.get("cosecha", pd.DataFrame())
expo = data.get("expo", pd.DataFrame())
insp = data.get("insp", pd.DataFrame())

print("\nLectura metodológica:")
print("- Las tablas operacionales se usan para explicar origen, clima, cosecha, packing y logística.")
print("- La inspección destino entrega el target oficial reclamo_comercial.")
print("- Las tablas documentales y HAB se usan para auditoría, explicación y evidencia, no como predictores pre-despacho.")

====================================================================================================
AUTENTICACIÓN Y CARGA DE DATOS BIGQUERY
====================================================================================================
[OK] Autenticación Google completada.
Tablas disponibles en BigQuery:
 - bridge_hab_causa_defecto
 - dim_cuarteles
 - dim_hab_defecto_calidad
 - dim_hab_etapa_cadena
 - dim_hab_parametro_calidad
 - dim_hab_principio_gestion_calidad
 - dim_hab_protocolo_operacional
 - dim_reclamo_caso_cliente
 - fact_clima
 - fact_cosecha
 - fact_exportacion
 - fact_inspeccion_destino
 - fact_reclamo_documento_cabecera
 - fact_reclamo_factura_detalle
 - fact_reclamo_ff_detalle
 - fact_reclamo_nota_credito_detalle

Cargando dim: dim_cuarteles...
[OK] dim: (144, 46)

Cargando clima: fact_clima...
[OK] clima: (14796, 26)

Cargando cosecha: fact_cosecha...
[OK] cosecha: (60480, 77)

Cargando expo: fact_exportacion...
[OK] expo: (58944, 90)

Cargando insp: fact_inspeccion_destino...
[OK] insp: (14736, 24)

Cargando reclamo_documento_cabecera: fact_reclamo_documento_cabecera...
[OK] reclamo_documento_cabecera: (9, 21)

Cargando reclamo_factura_detalle: fact_reclamo_factura_detalle...
[OK] reclamo_factura_detalle: (9, 12)

Cargando reclamo_nota_credito_detalle: fact_reclamo_nota_credito_detalle...
[OK] reclamo_nota_credito_detalle: (3, 15)

Cargando reclamo_ff_detalle: fact_reclamo_ff_detalle...
[OK] reclamo_ff_detalle: (114, 28)

Cargando hab_parametro: dim_hab_parametro_calidad...
[OK] hab_parametro: (18, 12)

Cargando hab_defecto: dim_hab_defecto_calidad...
[OK] hab_defecto: (12, 8)

Cargando hab_causa_defecto: bridge_hab_causa_defecto...
[OK] hab_causa_defecto: (22, 8)

Cargando hab_protocolo: dim_hab_protocolo_operacional...
[OK] hab_protocolo: (18, 9)

Cargando hab_etapa: dim_hab_etapa_cadena...
[OK] hab_etapa: (9, 8)

Cargando hab_principio: dim_hab_principio_gestion_calidad...
[OK] hab_principio: (8, 6)

Lectura metodológica:
- Las tablas operacionales se usan para explicar origen, clima, cosecha, packing y logística.
- La inspección destino entrega el target oficial reclamo_comercial.
- Las tablas documentales y HAB se usan para auditoría, explicación y evidencia, no como predictores pre-despacho.

# ======================================================================================
# 2. AUDITORÍA GENERAL DE TABLAS
# ======================================================================================

print_step("AUDITORÍA GENERAL DE TABLAS")

table_summary = []
null_tables = []

for alias, df in data.items():
    if df.empty:
        table_summary.append({"alias": alias, "filas": 0, "columnas": 0, "duplicados": 0, "pct_nulos_promedio": np.nan})
        continue

    duplicated = int(df.duplicated().sum())
    null_pct = df.isna().mean().mean()

    table_summary.append({
        "alias": alias,
        "filas": df.shape[0],
        "columnas": df.shape[1],
        "duplicados": duplicated,
        "pct_nulos_promedio": null_pct,
    })

    nulos = (
        df.isna().sum()
        .reset_index()
        .rename(columns={"index": "variable", 0: "nulos"})
    )
    nulos["tabla"] = alias
    nulos["pct_nulos"] = nulos["nulos"] / max(len(df), 1)
    null_tables.append(nulos)

table_summary_df = pd.DataFrame(table_summary).sort_values("filas", ascending=False)
display(table_summary_df)
table_summary_df.to_csv(OUTPUT_DIR / "resumen_tablas_v40.csv", index=False)

if null_tables:
    nulls_df = pd.concat(null_tables, ignore_index=True)
    nulls_df.sort_values(["tabla", "pct_nulos"], ascending=[True, False]).to_csv(OUTPUT_DIR / "nulos_por_variable_v40.csv", index=False)
    display(nulls_df.sort_values("pct_nulos", ascending=False).head(30))

# Gráfico de volumetría de tablas cargadas.
plot_df = table_summary_df[table_summary_df["filas"] > 0].copy().sort_values("filas")
plt.figure(figsize=(10, max(4, len(plot_df)*0.35)))
plt.barh(plot_df["alias"], plot_df["filas"])
plt.title("Volumetría de tablas cargadas")
plt.xlabel("Cantidad de registros")
plt.ylabel("Tabla")
savefig("01_volumetria_tablas.png")

print("Lectura:")
print("La auditoría de tablas permite demostrar qué fuentes están disponibles, cuáles faltan y qué tan robusta es la base para auditoria causal/económico.")

====================================================================================================
AUDITORÍA GENERAL DE TABLAS
====================================================================================================

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/01_volumetria_tablas.png

Lectura:
La auditoría de tablas permite demostrar qué fuentes están disponibles, cuáles faltan y qué tan robusta es la base para auditoria causal/económico.

# ======================================================================================
# 3. BASE AUDITADA A NIVEL LOTE_EXPORTACION / CONTENEDOR
# ======================================================================================

print_step("CONSTRUCCIÓN DE BASE AUDITADA")

# Validar tablas mínimas.
required = {"expo": expo, "insp": insp}
for name, df in required.items():
    if df.empty:
        raise ValueError(f"Tabla requerida vacía: {name}")

# Normalizar target oficial desde inspección destino.
insp2 = insp.copy()
insp2[TARGET] = pd.to_numeric(insp2.get(TARGET, 0), errors="coerce").fillna(0).astype(int)
if "monto_reclamo_usd" in insp2.columns:
    insp2["monto_reclamo_usd"] = pd.to_numeric(insp2["monto_reclamo_usd"], errors="coerce").fillna(0)
else:
    insp2["monto_reclamo_usd"] = 0.0

# Agregación oficial por lote_exportacion_id.
target_agg = (
    insp2
    .groupby("lote_exportacion_id", as_index=False)
    .agg(
        reclamo_comercial=(TARGET, "max"),
        monto_reclamo_usd=("monto_reclamo_usd", "sum"),
        n_inspecciones=("lote_exportacion_id", "size")
    )
)

print("Distribución target oficial desde inspección destino:")
display(target_agg["reclamo_comercial"].value_counts().sort_index())

# Exportación: una fila por lote_exportacion_id, para evitar duplicidad por packing/lineas.
expo_base = expo.copy()
if "lote_exportacion_id" not in expo_base.columns:
    raise ValueError("fact_exportacion no contiene lote_exportacion_id")

# En caso de duplicados de lote exportación, tomar primera fila operacional y luego auditar duplicidad.
dup_expo = expo_base["lote_exportacion_id"].duplicated().sum()
print("Duplicados lote_exportacion_id en expo:", dup_expo)
expo_unique = expo_base.drop_duplicates(subset=["lote_exportacion_id"]).copy()

# Eliminar targets si vinieran accidentalmente desde exportación.
leak_cols = [
    "reclamo_comercial", "monto_reclamo_usd", "lote_llega_mal_destino",
    "score_condicion_arribo_0a100", "fruta_apta_pct", "desorden_interno_pct",
    "maduracion_desuniforme_pct", "deshidratacion_pct", "golpe_pct", "podredumbre_pct",
    "dias_a_listo_consumo", "defecto_principal_destino", "severidad_inspeccion",
    "fecha_inspeccion_destino", "inspector_empresa"
]
expo_unique = expo_unique.drop(columns=[c for c in leak_cols if c in expo_unique.columns], errors="ignore")

base = expo_unique.merge(target_agg, on="lote_exportacion_id", how="inner")
base[TARGET] = base[TARGET].fillna(0).astype(int)

print("Base auditada inicial:", base.shape)
print("Distribución target en base:")
display(base[TARGET].value_counts().sort_index())

# Validaciones esperadas conocidas del proyecto.
print("Tasa de reclamo:", f"{base[TARGET].mean():.2%}")

# Guardar base mínima auditada.
base.to_csv(OUTPUT_DIR / "base_auditada_lote_exportacion_v40.csv", index=False)

plt.figure(figsize=(6,4))
base[TARGET].value_counts().sort_index().plot(kind="bar")
plt.title("Distribución oficial del target reclamo_comercial")
plt.xlabel("reclamo_comercial")
plt.ylabel("Cantidad de lotes exportación")
savefig("02_distribucion_target_oficial.png")

print("Lectura:")
print("El target oficial proviene de fact_inspeccion_destino. La base auditada queda a nivel lote_exportacion_id y evita duplicar registros de exportación.")

====================================================================================================
CONSTRUCCIÓN DE BASE AUDITADA
====================================================================================================
Distribución target oficial desde inspección destino:

Duplicados lote_exportacion_id en expo: 0
Base auditada inicial: (14736, 81)
Distribución target en base:

Tasa de reclamo: 1.05%
[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/02_distribucion_target_oficial.png

Lectura:
El target oficial proviene de fact_inspeccion_destino. La base auditada queda a nivel lote_exportacion_id y evita duplicar registros de exportación.

# ======================================================================================
# 4. ENRIQUECIMIENTO OPERACIONAL: ORIGEN, COSECHA Y CLIMA
# ======================================================================================

print_step("ENRIQUECIMIENTO OPERACIONAL")

base_enriq = base.copy()

# Merge con cosecha por lote_cosecha_id si existe.
if not cosecha.empty and "lote_cosecha_id" in base_enriq.columns and "lote_cosecha_id" in cosecha.columns:
    cosecha_cols_prefer = [
        "lote_cosecha_id", "cuartel_id", "temporada", "fecha_muestreo", "fecha_cosecha",
        "dias_muestreo_a_cosecha", "cuadrilla", "uso_tijera", "cantidad_bins", "horas_cosecha",
        "estacion_climatica_ref", "subzona_agroclimatica", "comuna", "uniformidad_riego_pct",
        "altitud_ms", "edad_arboles_anos", "densidad_arboles_ha", "portainjerto", "textura_suelo",
        "ph_suelo", "mo_pct", "ce_suelo_ds_m", "sistema_riego"
    ]
    cosecha_use = cosecha[[c for c in cosecha_cols_prefer if c in cosecha.columns]].drop_duplicates("lote_cosecha_id")
    base_enriq = base_enriq.merge(cosecha_use, on="lote_cosecha_id", how="left", suffixes=("", "_cosecha"))
    print("[OK] Merge cosecha:", base_enriq.shape)
else:
    print("[INFO] No se realizó merge cosecha por falta de llave o tabla vacía.")

# Merge con dim por cuartel_id si existe.
if not dim.empty and "cuartel_id" in base_enriq.columns and "cuartel_id" in dim.columns:
    dim_cols_prefer = [
        "cuartel_id", "predio_id", "nombre_predio", "unidad_negocio", "comuna", "subzona_agroclimatica",
        "latitud_aprox", "longitud_aprox", "altitud_ms", "superficie_ha", "ano_plantacion",
        "edad_arboles_anos", "densidad_arboles_ha", "portainjerto", "textura_suelo",
        "profundidad_suelo_cm", "ph_suelo", "mo_pct", "ce_suelo_ds_m", "sistema_riego",
        "uniformidad_riego_pct", "indice_vigor_ndvi_base", "ndvi_base", "rendimiento_base"
    ]
    dim_use = dim[[c for c in dim_cols_prefer if c in dim.columns]].drop_duplicates("cuartel_id")
    base_enriq = base_enriq.merge(dim_use, on="cuartel_id", how="left", suffixes=("", "_dim"))
    print("[OK] Merge dim_cuarteles:", base_enriq.shape)
else:
    print("[INFO] No se realizó merge dim por falta de llave o tabla vacía.")

# Variables derivadas de fechas.
for col in ["fecha_cosecha", "fecha_embarque", "fecha_recepcion_packing"]:
    if col in base_enriq.columns:
        base_enriq[col] = pd.to_datetime(base_enriq[col], errors="coerce")

if "fecha_cosecha" in base_enriq.columns:
    base_enriq["mes_cosecha"] = base_enriq["fecha_cosecha"].dt.month
    base_enriq["semana_cosecha"] = base_enriq["fecha_cosecha"].dt.isocalendar().week.astype("float")

if "fecha_embarque" in base_enriq.columns:
    base_enriq["mes_embarque"] = base_enriq["fecha_embarque"].dt.month
    base_enriq["semana_embarque"] = base_enriq["fecha_embarque"].dt.isocalendar().week.astype("float")

# Agregación climática robusta por estación/temporada, si existe.
# Para V4.0 se calcula resumen por estación-temporada y se asigna por estacion_climatica_ref.
if not clima.empty and "estacion_climatica_ref" in clima.columns and "estacion_climatica_ref" in base_enriq.columns:
    clima2 = clima.copy()
    if "fecha" in clima2.columns:
        clima2["fecha"] = pd.to_datetime(clima2["fecha"], errors="coerce")
    numeric_clima_candidates = [
        "tmin_c", "tmax_c", "tmed_c", "lluvia_mm", "humedad_relativa_pct",
        "horas_sobre_30c", "evento_helada", "horas_frio_bajo_7c", "gdd_base10",
        "radiacion_mj_m2", "temperatura_suelo_c", "viento_km_h", "eto_mm"
    ]
    for c in numeric_clima_candidates:
        if c in clima2.columns:
            clima2[c] = pd.to_numeric(clima2[c], errors="coerce")

    group_keys = ["estacion_climatica_ref"]
    if "temporada" in clima2.columns:
        group_keys.append("temporada")

    agg_dict = {}
    if "tmin_c" in clima2.columns: agg_dict["tmin_promedio_precosecha"] = ("tmin_c", "mean")
    if "tmax_c" in clima2.columns: agg_dict["tmax_promedio_precosecha"] = ("tmax_c", "mean")
    if "tmed_c" in clima2.columns: agg_dict["tmedia_promedio_precosecha"] = ("tmed_c", "mean")
    if "lluvia_mm" in clima2.columns: agg_dict["lluvia_acumulada_precosecha"] = ("lluvia_mm", "sum")
    if "humedad_relativa_pct" in clima2.columns: agg_dict["humedad_promedio_precosecha"] = ("humedad_relativa_pct", "mean")
    if "horas_sobre_30c" in clima2.columns: agg_dict["horas_sobre_30c_acumuladas"] = ("horas_sobre_30c", "sum")
    if "evento_helada" in clima2.columns: agg_dict["heladas_acumuladas_precosecha"] = ("evento_helada", "sum")
    if "horas_frio_bajo_7c" in clima2.columns: agg_dict["horas_frio_acumuladas"] = ("horas_frio_bajo_7c", "sum")
    if "gdd_base10" in clima2.columns: agg_dict["gdd_acumulado_precosecha"] = ("gdd_base10", "sum")
    if "radiacion_mj_m2" in clima2.columns: agg_dict["radiacion_promedio_precosecha"] = ("radiacion_mj_m2", "mean")
    if "temperatura_suelo_c" in clima2.columns: agg_dict["temperatura_suelo_promedio_precosecha"] = ("temperatura_suelo_c", "mean")

    if agg_dict:
        clima_agg = clima2.groupby(group_keys, as_index=False).agg(**agg_dict)
        merge_keys = [k for k in group_keys if k in base_enriq.columns]
        base_enriq = base_enriq.merge(clima_agg, on=merge_keys, how="left")
        print("[OK] Merge clima agregado:", base_enriq.shape)
else:
    print("[INFO] No se realizó merge clima por falta de estación o tabla vacía.")

# Deduplicar columnas exactas.
base_enriq = base_enriq.loc[:, ~base_enriq.columns.duplicated()].copy()

# Crear flags de riesgo si las variables existen.
def add_flag(df, col, new_col, condition):
    if col in df.columns:
        df[new_col] = condition(pd.to_numeric(df[col], errors="coerce")).astype(int)
    return df

base_enriq = add_flag(base_enriq, "desviacion_materia_seca_pct", "riesgo_heterogeneidad_flag", lambda s: s >= s.quantile(0.75))
base_enriq = add_flag(base_enriq, "materia_seca_pct", "riesgo_materia_seca_baja_flag", lambda s: s <= s.quantile(0.25))
base_enriq = add_flag(base_enriq, "firmeza_pulpa_lb", "riesgo_firmeza_baja_flag", lambda s: s <= s.quantile(0.25))
base_enriq = add_flag(base_enriq, "dias_cosecha_a_packing", "packing_lento_flag", lambda s: s >= s.quantile(0.75))
base_enriq = add_flag(base_enriq, "transito_real_dias", "transito_largo_flag", lambda s: s >= s.quantile(0.75))

# Diferencia de tránsito si existen ambos campos.
if "transito_real_dias" in base_enriq.columns and "transito_plan_dias" in base_enriq.columns:
    base_enriq["diferencia_transito_dias"] = pd.to_numeric(base_enriq["transito_real_dias"], errors="coerce") - pd.to_numeric(base_enriq["transito_plan_dias"], errors="coerce")
    base_enriq["retraso_logistico_flag"] = (base_enriq["diferencia_transito_dias"] > 0).astype(int)

base_enriq.to_csv(OUTPUT_DIR / "base_enriquecida_auditoria_v40.csv", index=False)
print("Base enriquecida guardada:", base_enriq.shape)
print("Columnas disponibles:", len(base_enriq.columns))

====================================================================================================
ENRIQUECIMIENTO OPERACIONAL
====================================================================================================
[OK] Merge cosecha: (14736, 100)
[OK] Merge dim_cuarteles: (14736, 121)
[OK] Merge clima agregado: (14736, 136)
Base enriquecida guardada: (14736, 140)
Columnas disponibles: 140

# ======================================================================================
# 5. AUDITORÍA ESTRATÉGICA DE VARIABLES — 5 NIVELES
# ======================================================================================

print_step("AUDITORÍA ESTRATÉGICA DE VARIABLES — 5 NIVELES")

# --------------------------------------------------------------------------------------
# Objetivo:
# Clasificar las variables candidatas del proyecto en 5 niveles de madurez analítica.
# Esto permite distinguir:
# - variables críticas fisiológicas/operacionales,
# - variables importantes,
# - variables contextuales,
# - variables históricas,
# - variables de causalidad expandida/interacciones.
#
# Además, se valida si cada variable existe realmente en las tablas cargadas.
# --------------------------------------------------------------------------------------

# Unir todas las columnas disponibles de las tablas cargadas
all_columns = set()

for table_name, df_tmp in data.items():
    if isinstance(df_tmp, pd.DataFrame) and not df_tmp.empty:
        for c in df_tmp.columns:
            all_columns.add(c)

all_columns_lower = {c.lower(): c for c in all_columns}


def variable_exists(var_name):
    """
    Valida si una variable existe en alguna tabla cargada.
    La búsqueda es flexible:
    - match exacto en minúscula
    - match parcial para variables derivadas o nombres similares
    """
    v = str(var_name).lower()

    if v in all_columns_lower:
        return True

    for col in all_columns_lower:
        if v in col or col in v:
            return True

    return False


variables_estrategicas = [
    # ==================================================================================
    # NIVEL 1 — VARIABLES CAUSALES DIRECTAS
    # ==================================================================================
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Madurez",
        "variable": "materia_seca_pct",
        "justificacion": "Indicador maestro de madurez funcional de la palta Hass."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Madurez",
        "variable": "desviacion_materia_seca_pct",
        "justificacion": "Captura heterogeneidad de madurez; puede generar maduración asincrónica."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Madurez",
        "variable": "riesgo_heterogeneidad_score",
        "justificacion": "Score derivado para cuantificar riesgo de mezcla heterogénea."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Frío",
        "variable": "quiebre_cadena_frio_h",
        "justificacion": "Mide exposición térmica fuera de rango; puede acelerar respiración y senescencia."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Frío",
        "variable": "tiempo_preenfriado_h",
        "justificacion": "Demora en remover calor de campo aumenta riesgo de deterioro poscosecha."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Frío",
        "variable": "temperatura_setpoint_frio_c",
        "justificacion": "Temperatura objetivo debe ser coherente con madurez y tiempo de tránsito."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Logística",
        "variable": "transito_real_dias",
        "justificacion": "Mayor tránsito aumenta exposición a senescencia y riesgo de reclamo."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Origen",
        "variable": "indice_vigor_ndvi_base",
        "justificacion": "Vigor vegetativo se asocia a condición fisiológica del fruto."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Origen",
        "variable": "subzona_agroclimatica",
        "justificacion": "Define condiciones agroclimáticas y ventana de comercialización."
    },
    {
        "nivel": "Nivel 1",
        "nombre_nivel": "Variables Causales Directas",
        "area": "Origen",
        "variable": "uniformidad_riego_pct",
        "justificacion": "Variabilidad de riego puede generar heterogeneidad de madurez y materia seca."
    },

    # ==================================================================================
    # NIVEL 2 — VARIABLES EXPLICATIVAS PRIMARIAS
    # ==================================================================================
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Origen", "variable": "edad_arboles_anos", "justificacion": "Edad del huerto puede influir en vigor, productividad y condición de fruta."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Origen", "variable": "densidad_arboles_ha", "justificacion": "Densidad afecta competencia, luz, vigor y desarrollo del fruto."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Origen", "variable": "portainjerto", "justificacion": "Portainjerto puede influir en vigor, absorción hídrica y respuesta al estrés."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Origen", "variable": "ph_suelo", "justificacion": "pH afecta disponibilidad nutricional y condición productiva."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Origen", "variable": "mo_pct", "justificacion": "Materia orgánica se relaciona con estructura del suelo y disponibilidad hídrica."},

    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Clima", "variable": "tmin_c", "justificacion": "Temperatura mínima precosecha afecta metabolismo y desarrollo del fruto."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Clima", "variable": "tmax_c", "justificacion": "Temperatura máxima puede generar estrés térmico."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Clima", "variable": "lluvia_mm", "justificacion": "Lluvia precosecha puede afectar condición sanitaria y manejo de cosecha."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Clima", "variable": "horas_frio_bajo_7c", "justificacion": "Horas de frío pueden influir en fisiología y calendario productivo."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Clima", "variable": "horas_sobre_30c", "justificacion": "Horas sobre 30°C capturan estrés por calor."},

    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Cosecha", "variable": "dias_muestreo_a_cosecha", "justificacion": "Ventana entre muestreo y cosecha afecta representatividad de madurez."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Cosecha", "variable": "semana_cosecha", "justificacion": "Captura momento fenológico y etapa de temporada."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Cosecha", "variable": "mes_cosecha", "justificacion": "Permite evaluar estacionalidad de cosecha."},

    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Packing", "variable": "dias_cosecha_a_packing", "justificacion": "Tiempo desde cosecha a packing afecta condición y deterioro inicial."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Madurez", "variable": "firmeza_pulpa_lb", "justificacion": "Resistencia estructural del fruto frente a daño mecánico."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Madurez", "variable": "calibre", "justificacion": "Tamaño del fruto puede relacionarse con madurez y sensibilidad."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Madurez", "variable": "peso_fruto_g", "justificacion": "Peso captura condición física y calibre efectivo."},

    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Logística", "variable": "retraso_logistico_flag", "justificacion": "Retrasos aumentan exposición a deterioro y riesgo comercial."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Logística", "variable": "diferencia_transito_dias", "justificacion": "Diferencia entre tránsito real y planificado."},
    {"nivel": "Nivel 2", "nombre_nivel": "Variables Explicativas Primarias", "area": "Contenedor", "variable": "atmosfera_controlada", "justificacion": "Condición de atmósfera afecta conservación y maduración."},

    # ==================================================================================
    # NIVEL 3 — VARIABLES DE ENTORNO OPERACIONAL
    # ==================================================================================
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Mercado", "variable": "pais_destino", "justificacion": "Destino puede reflejar distancia, exigencia comercial y manejo post-arribo."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Mercado", "variable": "macro_mercado", "justificacion": "Agrupa destinos con comportamiento logístico y comercial común."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Mercado", "variable": "canal_destino", "justificacion": "Canal puede reflejar exigencia de cliente y nivel de tolerancia."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Cliente", "variable": "cliente_tipo", "justificacion": "Tipo de cliente puede tener diferente estándar de aceptación."},

    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Packing", "variable": "packhouse_id", "justificacion": "Captura diferencias operacionales entre plantas o instalaciones."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Packing", "variable": "linea_packing", "justificacion": "Diferencias de línea pueden afectar manipulación y selección."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Packing", "variable": "operador_packing", "justificacion": "Operador puede reflejar diferencias operativas o turnos."},

    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Logística", "variable": "naviera", "justificacion": "Naviera captura diferencias de servicio, ruta y desempeño logístico."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Logística", "variable": "puerto_salida", "justificacion": "Puerto puede asociarse a tiempos, infraestructura y rutas."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Contenedor", "variable": "tipo_contenedor", "justificacion": "Tipo de contenedor puede afectar conservación y exposición térmica."},

    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Temporal", "variable": "temporada", "justificacion": "Captura cambios productivos, comerciales y climáticos entre temporadas."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Temporal", "variable": "cosecha_temprana_flag", "justificacion": "Cosecha temprana puede asociarse a madurez funcional menor."},
    {"nivel": "Nivel 3", "nombre_nivel": "Variables de Entorno Operacional", "area": "Temporal", "variable": "cosecha_tardia_flag", "justificacion": "Cosecha tardía puede asociarse a sobremadurez o sensibilidad."},

    # ==================================================================================
    # NIVEL 4 — VARIABLES DE RIESGO HISTÓRICO Y COMERCIAL ACUMULADO
    # ==================================================================================
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "tasa_reclamo_cliente_historica", "justificacion": "Historial de reclamos del cliente sin mirar información futura."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "tasa_reclamo_mercado_historica", "justificacion": "Historial de reclamos por macro mercado."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "tasa_reclamo_pais_historica", "justificacion": "Historial de reclamos por país destino."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "tasa_reclamo_packhouse_historica", "justificacion": "Historial de reclamos asociado a packhouse."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "tasa_reclamo_naviera_historica", "justificacion": "Historial de reclamos asociado a naviera."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "monto_promedio_reclamo_cliente", "justificacion": "Monto histórico promedio asociado al cliente."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "monto_promedio_reclamo_mercado", "justificacion": "Monto histórico promedio asociado al mercado."},
    {"nivel": "Nivel 4", "nombre_nivel": "Variables de Riesgo Histórico y Comercial Acumulado", "area": "Históricos", "variable": "monto_promedio_reclamo_naviera", "justificacion": "Monto histórico promedio asociado a naviera."},

    # ==================================================================================
    # NIVEL 5 — VARIABLES DE CAUSALIDAD EXPANDIDA E INTERACCIONES
    # ==================================================================================
    {"nivel": "Nivel 5", "nombre_nivel": "Variables de Causalidad Expandida e Interacciones", "area": "Interacciones", "variable": "materia_seca_x_transito", "justificacion": "Interacción entre madurez y exposición logística."},
    {"nivel": "Nivel 5", "nombre_nivel": "Variables de Causalidad Expandida e Interacciones", "area": "Interacciones", "variable": "materia_seca_x_mercado", "justificacion": "Interacción entre madurez y exigencia de mercado."},
    {"nivel": "Nivel 5", "nombre_nivel": "Variables de Causalidad Expandida e Interacciones", "area": "Interacciones", "variable": "firmeza_x_transito", "justificacion": "Interacción entre firmeza y duración logística."},
    {"nivel": "Nivel 5", "nombre_nivel": "Variables de Causalidad Expandida e Interacciones", "area": "Interacciones", "variable": "frio_x_transito", "justificacion": "Interacción entre quiebre de frío y duración de tránsito."},
    {"nivel": "Nivel 5", "nombre_nivel": "Variables de Causalidad Expandida e Interacciones", "area": "Interacciones", "variable": "ndvi_x_subzona", "justificacion": "Interacción entre vigor del origen y zona agroclimática."},
]

audit_variables = pd.DataFrame(variables_estrategicas)

# --------------------------------------------------------------------------------------
# Validar existencia
# --------------------------------------------------------------------------------------

audit_variables["existe_en_base"] = audit_variables["variable"].apply(variable_exists)

audit_variables["estado"] = np.where(
    audit_variables["existe_en_base"],
    "Disponible",
    "Gap de información"
)

audit_variables["prioridad_modelo"] = np.where(
    audit_variables["existe_en_base"],
    "Candidata inmediata",
    "Requiere captura futura"
)

display(audit_variables)

# --------------------------------------------------------------------------------------
# Resumen general
# --------------------------------------------------------------------------------------

resumen_nivel = (
    audit_variables
    .groupby(["nivel", "nombre_nivel", "estado"])
    .size()
    .reset_index(name="cantidad")
)

display(resumen_nivel)

# --------------------------------------------------------------------------------------
# Matriz Nivel x Área
# --------------------------------------------------------------------------------------

matriz_nivel_area = pd.crosstab(
    audit_variables["nivel"],
    audit_variables["area"]
)

display(matriz_nivel_area)

# --------------------------------------------------------------------------------------
# Resumen Nivel 1 — Variables críticas
# --------------------------------------------------------------------------------------

nivel1 = audit_variables[audit_variables["nivel"] == "Nivel 1"].copy()

total_n1 = len(nivel1)
disp_n1 = (nivel1["estado"] == "Disponible").sum()
falt_n1 = (nivel1["estado"] == "Gap de información").sum()

pct_disp_n1 = disp_n1 / total_n1 * 100
pct_falt_n1 = falt_n1 / total_n1 * 100

print("\n" + "="*100)
print("RESUMEN VARIABLES CRÍTICAS — NIVEL 1")
print("="*100)

print(f"Variables críticas disponibles: {disp_n1} de {total_n1} ({pct_disp_n1:.1f}%)")
print(f"Variables críticas faltantes: {falt_n1} de {total_n1} ({pct_falt_n1:.1f}%)")

# --------------------------------------------------------------------------------------
# Brecha de captura de información
# --------------------------------------------------------------------------------------

gaps = audit_variables[audit_variables["estado"] == "Gap de información"].copy()

gap_area = (
    gaps
    .groupby("area")
    .size()
    .reset_index(name="cantidad_variables")
    .sort_values("cantidad_variables", ascending=False)
)

display(gap_area)

print("\n" + "="*100)
print("BRECHA DE CAPTURA DE INFORMACIÓN")
print("="*100)

if gap_area.empty:
    print("No se detectaron brechas de captura de información.")
else:
    print("Las variables faltantes corresponden principalmente a:")
    for _, r in gap_area.iterrows():
        print(f"- {r['area']} ({r['cantidad_variables']} variables)")

print("""
Interpretación:
La auditoría estratégica permite separar variables disponibles de variables críticas aún no capturadas.
Las variables con estado 'Gap de información' no deben forzarse en el modelo actual.
Deben quedar documentadas como brechas de captura para futuras temporadas.
""")

# --------------------------------------------------------------------------------------
# Gráficos
# --------------------------------------------------------------------------------------

plt.figure(figsize=(8, 5))
audit_variables["estado"].value_counts().plot(kind="bar")
plt.title("Disponibilidad de variables estratégicas")
plt.ylabel("Cantidad de variables")
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 5))
(
    audit_variables
    .groupby(["nivel", "estado"])
    .size()
    .unstack(fill_value=0)
    .plot(kind="bar", stacked=True, figsize=(10, 5))
)
plt.title("Disponibilidad de variables por nivel")
plt.ylabel("Cantidad de variables")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

plt.figure(figsize=(12, 6))
plt.imshow(matriz_nivel_area, aspect="auto")
plt.title("Matriz Nivel x Área de Variables")
plt.xticks(range(len(matriz_nivel_area.columns)), matriz_nivel_area.columns, rotation=45, ha="right")
plt.yticks(range(len(matriz_nivel_area.index)), matriz_nivel_area.index)
plt.colorbar(label="Cantidad de variables")
plt.tight_layout()
plt.show()

# --------------------------------------------------------------------------------------
# Exportar
# --------------------------------------------------------------------------------------

audit_variables.to_csv(OUTPUT_DIR / "auditoria_estrategica_variables_5_niveles.csv", index=False)
resumen_nivel.to_csv(OUTPUT_DIR / "resumen_disponibilidad_variables_por_nivel.csv", index=False)
matriz_nivel_area.to_csv(OUTPUT_DIR / "matriz_nivel_area_variables.csv")

print("[OUTPUT] Archivos de auditoría estratégica exportados.")

# Copia oficial V6.0 de la matriz de variables y niveles heredada de V4.0
try:
    audit_variables.to_csv(OUTPUT_DIR / "matriz_variables_niveles_oficial_V6_0.csv", index=False)
    print("[OUTPUT] Matriz oficial variables/niveles V6.0 guardada.")
except Exception as e:
    print("[WARNING] No se pudo guardar matriz variables/niveles V6.0:", e)

====================================================================================================
AUDITORÍA ESTRATÉGICA DE VARIABLES — 5 NIVELES
====================================================================================================

====================================================================================================
RESUMEN VARIABLES CRÍTICAS — NIVEL 1
====================================================================================================
Variables críticas disponibles: 9 de 10 (90.0%)
Variables críticas faltantes: 1 de 10 (10.0%)

====================================================================================================
BRECHA DE CAPTURA DE INFORMACIÓN
====================================================================================================
Las variables faltantes corresponden principalmente a:
- Históricos (5 variables)
- Interacciones (5 variables)
- Logística (3 variables)
- Cosecha (2 variables)
- Temporal (2 variables)

Interpretación:
La auditoría estratégica permite separar variables disponibles de variables críticas aún no capturadas.
Las variables con estado 'Gap de información' no deben forzarse en el modelo actual.
Deben quedar documentadas como brechas de captura para futuras temporadas.

<Figure size 1000x500 with 0 Axes>

[OUTPUT] Archivos de auditoría estratégica exportados.
[OUTPUT] Matriz oficial variables/niveles V6.0 guardada.

# ======================================================================================
# 04. FEATURE ENGINEERING — MATRIZ MODELABLE POR VARIABLES/NIVELES V4.0
# ======================================================================================

print_step("04 — FEATURE ENGINEERING MODELABLE V6.0")

model_df = base_enriq.copy()
model_df[TARGET] = pd.to_numeric(model_df[TARGET], errors="coerce").fillna(0).astype(int)

# Variables prohibidas por leakage o post-arribo.
LEAKAGE_COLS = [
    "reclamo_comercial", "monto_reclamo_usd", "lote_llega_mal_destino",
    "score_condicion_arribo_0a100", "fruta_apta_pct", "desorden_interno_pct",
    "maduracion_desuniforme_pct", "deshidratacion_pct", "golpe_pct", "podredumbre_pct",
    "dias_a_listo_consumo", "defecto_principal_destino", "severidad_inspeccion",
    "fecha_inspeccion_destino", "inspector_empresa", "observacion_inspector"
]
ID_COLS = [c for c in ["lote_exportacion_id", "lote_cosecha_id", "cuartel_id", "predio_id"] if c in model_df.columns]

# Variables oficiales desde V4.0: mismas variables y mismos niveles.
vars_oficiales = audit_variables.copy()
vars_oficiales["existe_en_model_df"] = vars_oficiales["variable"].isin(model_df.columns)

candidate_vars = [
    v for v in vars_oficiales.loc[vars_oficiales["existe_en_model_df"], "variable"].dropna().unique().tolist()
    if v not in LEAKAGE_COLS and v != TARGET
]

# Agregar variables temporales derivadas si existen y están en la matriz enriquecida.
for v in ["mes_cosecha", "semana_cosecha", "mes_embarque", "semana_embarque"]:
    if v in model_df.columns and v not in candidate_vars:
        candidate_vars.append(v)

# Remover columnas completamente nulas o constantes.
valid_vars = []
for v in candidate_vars:
    s = model_df[v]
    if s.notna().sum() == 0:
        continue
    if s.nunique(dropna=True) <= 1:
        continue
    valid_vars.append(v)

X_all = model_df[valid_vars].copy()
y_all = model_df[TARGET].astype(int).copy()

# Tipos de variables.
num_features = [c for c in valid_vars if pd.api.types.is_numeric_dtype(X_all[c])]
cat_features = [c for c in valid_vars if c not in num_features]

feature_inventory = pd.DataFrame({
    "variable": valid_vars,
    "tipo_modelo": ["numerica" if v in num_features else "categorica" for v in valid_vars],
    "n_missing": [int(model_df[v].isna().sum()) for v in valid_vars],
    "pct_missing": [float(model_df[v].isna().mean()) for v in valid_vars],
    "n_unique": [int(model_df[v].nunique(dropna=True)) for v in valid_vars]
}).merge(vars_oficiales[["nivel", "nombre_nivel", "area", "variable", "justificacion"]], on="variable", how="left")

print("Filas modelables:", len(model_df))
print("Target positivo:", int(y_all.sum()), f"({y_all.mean():.2%})")
print("Variables candidatas oficiales disponibles:", len(candidate_vars))
print("Variables válidas modelables:", len(valid_vars))
print("Numéricas:", len(num_features), "| Categóricas:", len(cat_features))

display(feature_inventory.sort_values(["nivel", "area", "variable"]))
feature_inventory.to_csv(OUTPUT_DIR / "inventario_features_modelables_V6_0.csv", index=False)

# Gráfico: variables modelables por nivel.
inv_level = feature_inventory.groupby(["nivel", "nombre_nivel"], dropna=False).size().reset_index(name="variables_modelables")
display(inv_level)
plt.figure(figsize=(10,4))
plt.bar(inv_level["nivel"].astype(str) + "\n" + inv_level["nombre_nivel"].astype(str), inv_level["variables_modelables"])
plt.title("Variables modelables por nivel oficial V4.0")
plt.ylabel("Cantidad de variables")
plt.xticks(rotation=20, ha="right")
savefig("V6_04_variables_modelables_por_nivel.png")

print("Explicación estadística:")
print("La matriz X se construye exclusivamente con variables pre-despacho disponibles y no constantes. Las variables post-arribo quedan excluidas para evitar leakage.")
print("Lectura operacional:")
print("El modelo aprende desde señales disponibles antes del despacho: origen, madurez, cosecha, packing, logística, clima y contexto comercial.")
print("Recomendación ML:")
print("Mantener un diccionario de captura por nivel. Las variables Nivel 1 y Nivel 2 deben tener prioridad en calidad de dato por su vínculo fisiológico/operacional directo.")

====================================================================================================
04 — FEATURE ENGINEERING MODELABLE V6.0
====================================================================================================
Filas modelables: 14736
Target positivo: 154 (1.05%)
Variables candidatas oficiales disponibles: 33
Variables válidas modelables: 33
Numéricas: 22 | Categóricas: 11

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_04_variables_modelables_por_nivel.png

Explicación estadística:
La matriz X se construye exclusivamente con variables pre-despacho disponibles y no constantes. Las variables post-arribo quedan excluidas para evitar leakage.
Lectura operacional:
El modelo aprende desde señales disponibles antes del despacho: origen, madurez, cosecha, packing, logística, clima y contexto comercial.
Recomendación ML:
Mantener un diccionario de captura por nivel. Las variables Nivel 1 y Nivel 2 deben tener prioridad en calidad de dato por su vínculo fisiológico/operacional directo.

# ======================================================================================
# 05. SPLIT TEMPORAL — TRAIN / VALIDACIÓN / TEST
# ======================================================================================

print_step("05 — SPLIT TEMPORAL")

# --------------------------------------------------------------------------------------
# Corrección V6.0.1:
# En algunos joins pueden quedar columnas duplicadas con el mismo nombre, por ejemplo
# "temporada". En pandas, split_df["temporada"] devuelve un DataFrame si el nombre está
# duplicado; por eso una condición como .notna().nunique() puede volverse ambigua.
# Aquí se eliminan duplicados de columnas y se evita repetir variables de control.
# --------------------------------------------------------------------------------------
model_df = model_df.loc[:, ~pd.Index(model_df.columns).duplicated(keep="first")].copy()
valid_vars = list(dict.fromkeys([v for v in valid_vars if v in model_df.columns and v != TARGET]))

control_cols = [c for c in ["temporada", "fecha_embarque", "fecha_cosecha"] if c in model_df.columns and c not in valid_vars and c != TARGET]
split_cols = list(dict.fromkeys([TARGET] + valid_vars + control_cols))
split_df = model_df[split_cols].copy()

# Serie segura de temporada: siempre 1 dimensión, aun si en algún paso anterior existían duplicados.
temporada_s = None
if "temporada" in split_df.columns:
    tmp = split_df.loc[:, "temporada"]
    if isinstance(tmp, pd.DataFrame):
        tmp = tmp.iloc[:, 0]
    temporada_s = tmp.astype(str).where(tmp.notna(), np.nan)

split_method = ""
if temporada_s is not None and temporada_s.dropna().nunique() >= 3:
    temporadas = sorted(temporada_s.dropna().unique().tolist())
    train_seasons = temporadas[:-2]
    val_season = temporadas[-2]
    test_season = temporadas[-1]

    idx_train = temporada_s.isin(train_seasons).to_numpy()
    idx_val = temporada_s.eq(val_season).to_numpy()
    idx_test = temporada_s.eq(test_season).to_numpy()
    split_method = "temporal_por_temporada"

    split_temporal_detalle = pd.DataFrame({
        "rol": ["train", "validacion", "test"],
        "temporadas": [", ".join(train_seasons), val_season, test_season]
    })
    display(split_temporal_detalle)
else:
    # Fallback robusto: si no hay temporadas suficientes, usa split estratificado.
    idx_train_tmp, idx_test_pos = train_test_split(
        np.arange(len(split_df)),
        test_size=0.20,
        random_state=RANDOM_STATE,
        stratify=y_all
    )
    y_tmp = y_all.iloc[idx_train_tmp]
    idx_train_pos, idx_val_pos = train_test_split(
        idx_train_tmp,
        test_size=0.20,
        random_state=RANDOM_STATE,
        stratify=y_tmp
    )

    idx_train = np.zeros(len(split_df), dtype=bool); idx_train[idx_train_pos] = True
    idx_val = np.zeros(len(split_df), dtype=bool); idx_val[idx_val_pos] = True
    idx_test = np.zeros(len(split_df), dtype=bool); idx_test[idx_test_pos] = True
    split_method = "estratificado_fallback"

X_train, y_train = X_all.loc[idx_train, valid_vars], y_all.loc[idx_train]
X_val, y_val = X_all.loc[idx_val, valid_vars], y_all.loc[idx_val]
X_test, y_test = X_all.loc[idx_test, valid_vars], y_all.loc[idx_test]

split_summary = pd.DataFrame([
    {"split": "train", "filas": len(y_train), "positivos": int(y_train.sum()), "tasa_reclamo": y_train.mean()},
    {"split": "validacion", "filas": len(y_val), "positivos": int(y_val.sum()), "tasa_reclamo": y_val.mean()},
    {"split": "test", "filas": len(y_test), "positivos": int(y_test.sum()), "tasa_reclamo": y_test.mean()},
])
print("Método split:", split_method)
display(split_summary)
split_summary.to_csv(OUTPUT_DIR / "split_temporal_resumen_V6_0.csv", index=False)

plt.figure(figsize=(7,4))
plt.bar(split_summary["split"], split_summary["tasa_reclamo"]*100)
plt.title("Tasa de reclamo por split")
plt.ylabel("Tasa de reclamo (%)")
savefig("V6_05_tasa_reclamo_por_split.png")

print("Explicación estadística:")
print("El split temporal evita entrenar con información futura. La corrección V6.0.1 controla columnas duplicadas, especialmente 'temporada', para evitar ambigüedad en pandas.")
print("Lectura operacional:")
print("El test representa la temporada más reciente disponible y simula mejor el desempeño esperado en operación futura.")
print("Recomendación ML:")
print("No mezclar aleatoriamente temporadas si el objetivo es defender capacidad predictiva pre-despacho en una campaña futura. Usar fallback estratificado solo si no hay temporadas suficientes.")

====================================================================================================
05 — SPLIT TEMPORAL
====================================================================================================

Método split: temporal_por_temporada

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_05_tasa_reclamo_por_split.png

Explicación estadística:
El split temporal evita entrenar con información futura. La corrección V6.0.1 controla columnas duplicadas, especialmente 'temporada', para evitar ambigüedad en pandas.
Lectura operacional:
El test representa la temporada más reciente disponible y simula mejor el desempeño esperado en operación futura.
Recomendación ML:
No mezclar aleatoriamente temporadas si el objetivo es defender capacidad predictiva pre-despacho en una campaña futura. Usar fallback estratificado solo si no hay temporadas suficientes.

# ======================================================================================
# 06. SELECCIÓN DE VARIABLES + LABORATORIO DE REGRESIÓN LOGÍSTICA
# ======================================================================================

print_step("06 — SELECCIÓN DE VARIABLES Y ENTRENAMIENTO V6.0")

# --------------------------------------------------------------------------------------
# 06.1 Preprocesamiento base para selección LASSO
# --------------------------------------------------------------------------------------
num_features_all = [c for c in valid_vars if pd.api.types.is_numeric_dtype(X_train[c])]
cat_features_all = [c for c in valid_vars if c not in num_features_all]

try:
    ohe_select = OneHotEncoder(handle_unknown="ignore", sparse_output=True, min_frequency=10)
except TypeError:
    ohe_select = OneHotEncoder(handle_unknown="ignore", sparse=True)

pre_lasso = ColumnTransformer(
    transformers=[
        ("num", Pipeline([("imputer", SimpleImputer(strategy="median")), ("scaler", StandardScaler())]), num_features_all),
        ("cat", Pipeline([("imputer", SimpleImputer(strategy="most_frequent")), ("onehot", ohe_select)]), cat_features_all),
    ],
    remainder="drop"
)

def economic_benefit_from_cm(tn, fp, fn, tp, costo_reclamo=COSTO_RECLAMO_USD, costo_fp=COSTO_REVISION_FP_USD):
    return (tp * costo_reclamo) - (fp * costo_fp)

def metrics_at_threshold(y_true, proba, threshold):
    y_pred = (proba >= threshold).astype(int)
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred, labels=[0,1]).ravel()
    return {
        "threshold": float(threshold),
        "TN": int(tn), "FP": int(fp), "FN": int(fn), "TP": int(tp),
        "accuracy": accuracy_score(y_true, y_pred),
        "precision_ppv": precision_score(y_true, y_pred, zero_division=0),
        "recall_sensitivity": recall_score(y_true, y_pred, zero_division=0),
        "specificity": tn / (tn + fp) if (tn + fp) else 0,
        "f1": f1_score(y_true, y_pred, zero_division=0),
        "f2": fbeta_score(y_true, y_pred, beta=2, zero_division=0),
        "balanced_accuracy": balanced_accuracy_score(y_true, y_pred),
        "mcc": matthews_corrcoef(y_true, y_pred) if len(np.unique(y_pred)) > 1 else 0,
        "beneficio_neto_usd": economic_benefit_from_cm(tn, fp, fn, tp),
    }

def feature_name_to_original(name, num_vars, cat_vars):
    clean = name.replace("num__", "").replace("cat__", "")
    if clean in num_vars:
        return clean
    for v in sorted(cat_vars, key=len, reverse=True):
        if clean == v or clean.startswith(v + "_"):
            return v
    return clean.split("_")[0]

# --------------------------------------------------------------------------------------
# 06.2 LASSO: elegir C que mantenga menos variables pero con señal predictiva razonable
# --------------------------------------------------------------------------------------
lasso_grid = [0.005, 0.01, 0.02, 0.05, 0.10, 0.20, 0.50, 1.00]
lasso_rows = []
lasso_models = {}

for C in lasso_grid:
    pipe = Pipeline([
        ("pre", pre_lasso),
        ("clf", LogisticRegression(
            penalty="l1", solver="saga", C=C, class_weight="balanced",
            max_iter=6000, random_state=RANDOM_STATE, n_jobs=-1
        ))
    ])
    try:
        pipe.fit(X_train[valid_vars], y_train)
        p_val = pipe.predict_proba(X_val[valid_vars])[:,1]
        auc = roc_auc_score(y_val, p_val) if y_val.nunique() == 2 else np.nan
        pr = average_precision_score(y_val, p_val)
        coefs = pipe.named_steps["clf"].coef_[0]
        fnames = pipe.named_steps["pre"].get_feature_names_out()
        nonzero = int(np.sum(np.abs(coefs) > 1e-8))
        original_nonzero = len(set(feature_name_to_original(f, num_features_all, cat_features_all) for f, c in zip(fnames, coefs) if abs(c) > 1e-8))
        lasso_rows.append({"C": C, "roc_auc_val": auc, "pr_auc_val": pr, "coef_no_cero": nonzero, "variables_originales_no_cero": original_nonzero})
        lasso_models[C] = pipe
    except Exception as e:
        lasso_rows.append({"C": C, "roc_auc_val": np.nan, "pr_auc_val": np.nan, "coef_no_cero": 0, "variables_originales_no_cero": 0, "error": str(e)[:200]})

lasso_summary = pd.DataFrame(lasso_rows)
# Preferimos modelos con entre MIN y MAX variables. Si no existen, tomamos mejor PR-AUC penalizado por complejidad.
valid_lasso = lasso_summary.dropna(subset=["pr_auc_val"]).copy()
valid_lasso["cumple_parsimonia"] = valid_lasso["variables_originales_no_cero"].between(MIN_VARIABLES_V6, MAX_VARIABLES_V6)
valid_lasso["score_v6"] = valid_lasso["pr_auc_val"] - 0.0005 * valid_lasso["variables_originales_no_cero"]
if valid_lasso["cumple_parsimonia"].any():
    best_lasso_C = valid_lasso[valid_lasso["cumple_parsimonia"]].sort_values(["pr_auc_val", "score_v6"], ascending=False).iloc[0]["C"]
else:
    best_lasso_C = valid_lasso.sort_values("score_v6", ascending=False).iloc[0]["C"]

print("Resumen LASSO por C:")
display(lasso_summary.sort_values("C"))
print("C LASSO seleccionado:", best_lasso_C)
lasso_summary.to_csv(OUTPUT_DIR / "V6_0_lasso_grid_seleccion_variables.csv", index=False)

best_lasso = lasso_models[best_lasso_C]
coefs = best_lasso.named_steps["clf"].coef_[0]
fnames = best_lasso.named_steps["pre"].get_feature_names_out()

coef_df_lasso = pd.DataFrame({"feature_ohe": fnames, "coef": coefs, "abs_coef": np.abs(coefs)})
coef_df_lasso["variable_original"] = coef_df_lasso["feature_ohe"].apply(lambda x: feature_name_to_original(x, num_features_all, cat_features_all))
var_importance_lasso = (coef_df_lasso.groupby("variable_original", as_index=False)
    .agg(abs_coef_total=("abs_coef", "sum"), max_abs_coef=("abs_coef", "max"), n_coef_no_cero=("abs_coef", lambda s: int((s > 1e-8).sum())))
    .sort_values(["abs_coef_total", "max_abs_coef"], ascending=False))
var_importance_lasso = var_importance_lasso[var_importance_lasso["n_coef_no_cero"] > 0].copy()

# Mantener menos variables: top MAX_VARIABLES_V6 con señal. Si LASSO deja muy pocas, completar con variables de mayor disponibilidad/nivel.
selected_vars_lasso = var_importance_lasso["variable_original"].head(MAX_VARIABLES_V6).tolist()
if len(selected_vars_lasso) < MIN_VARIABLES_V6:
    fallback = feature_inventory.sort_values(["pct_missing", "n_unique"], ascending=[True, False])["variable"].tolist()
    for v in fallback:
        if v not in selected_vars_lasso and v in valid_vars:
            selected_vars_lasso.append(v)
        if len(selected_vars_lasso) >= MIN_VARIABLES_V6:
            break

# --------------------------------------------------------------------------------------
# 06.3 VIF simple sobre numéricas seleccionadas para reducir colinealidad
# --------------------------------------------------------------------------------------
selected_vars_pre_vif = list(dict.fromkeys([v for v in selected_vars_lasso if v in valid_vars]))
selected_num_pre_vif = [v for v in selected_vars_pre_vif if v in num_features_all]
removed_vif = []
vif_table = pd.DataFrame()

if HAS_STATSMODELS and len(selected_num_pre_vif) >= 3:
    try:
        from statsmodels.stats.outliers_influence import variance_inflation_factor
        tmp_num = X_train[selected_num_pre_vif].copy()
        for c in tmp_num.columns:
            tmp_num[c] = pd.to_numeric(tmp_num[c], errors="coerce")
        tmp_num = tmp_num.fillna(tmp_num.median(numeric_only=True))
        current = selected_num_pre_vif.copy()
        while len(current) >= 3:
            Xv = tmp_num[current].replace([np.inf, -np.inf], np.nan).fillna(0)
            Xv = pd.DataFrame(StandardScaler().fit_transform(Xv), columns=current)
            vif_values = []
            for i, col in enumerate(current):
                try:
                    vif_values.append(float(variance_inflation_factor(Xv.values, i)))
                except Exception:
                    vif_values.append(np.inf)
            vdf = pd.DataFrame({"variable": current, "VIF": vif_values}).sort_values("VIF", ascending=False)
            max_vif = vdf.iloc[0]
            vif_table = vdf.copy()
            if max_vif["VIF"] <= 10 or len(current) <= 3:
                break
            removed_vif.append({"variable_removida": max_vif["variable"], "VIF": max_vif["VIF"]})
            current.remove(max_vif["variable"])
        selected_num_after_vif = current
    except Exception as e:
        print("[WARNING] VIF no pudo ejecutarse:", e)
        selected_num_after_vif = selected_num_pre_vif
else:
    selected_num_after_vif = selected_num_pre_vif

selected_cat = [v for v in selected_vars_pre_vif if v not in num_features_all]
selected_vars_v6 = [v for v in selected_vars_pre_vif if (v in selected_cat or v in selected_num_after_vif)]
selected_vars_v6 = selected_vars_v6[:MAX_VARIABLES_V6]

selected_feature_inventory_v6 = feature_inventory[feature_inventory["variable"].isin(selected_vars_v6)].copy()
selected_feature_inventory_v6["orden_modelo_v6"] = selected_feature_inventory_v6["variable"].apply(lambda v: selected_vars_v6.index(v) + 1 if v in selected_vars_v6 else np.nan)
selected_feature_inventory_v6 = selected_feature_inventory_v6.sort_values("orden_modelo_v6")

print("Variables iniciales V4.0 disponibles:", len(valid_vars))
print("Variables finales V6.0:", len(selected_vars_v6))
print(selected_vars_v6)
display(selected_feature_inventory_v6)
selected_feature_inventory_v6.to_csv(OUTPUT_DIR / "V6_0_variables_finales_menos_variables.csv", index=False)
var_importance_lasso.to_csv(OUTPUT_DIR / "V6_0_importancia_lasso_por_variable.csv", index=False)
if not vif_table.empty:
    display(vif_table)
    vif_table.to_csv(OUTPUT_DIR / "V6_0_vif_variables_numericas.csv", index=False)
if removed_vif:
    display(pd.DataFrame(removed_vif))
    pd.DataFrame(removed_vif).to_csv(OUTPUT_DIR / "V6_0_variables_removidas_por_vif.csv", index=False)

plt.figure(figsize=(9,4))
plot_df = selected_feature_inventory_v6.groupby(["nivel", "nombre_nivel"], dropna=False).size().reset_index(name="variables")
plt.bar(plot_df["nivel"].astype(str) + "\n" + plot_df["nombre_nivel"].astype(str), plot_df["variables"])
plt.title("V6.0 — Variables finales por nivel")
plt.ylabel("Cantidad")
plt.xticks(rotation=20, ha="right")
savefig("V6_0_variables_finales_por_nivel.png")

print("Explicación estadística:")
print("V6.0 reduce dimensionalidad con LASSO y controla multicolinealidad numérica con VIF. Esto mejora estabilidad de coeficientes y defendibilidad.")
print("Lectura operacional:")
print("Menos variables implica menor dependencia de datos difíciles de capturar y mayor facilidad de explicar por qué un lote fue priorizado.")
print("Recomendación ML:")
print("Usar este set reducido como modelo base interpretable. Si una variable clave de negocio queda fuera, puede reingresarse como restricción experta y compararse contra el ranking automático.")

# --------------------------------------------------------------------------------------
# 06.4 Laboratorio de modelos candidatos con las variables reducidas
# --------------------------------------------------------------------------------------
num_features_v6 = [c for c in selected_vars_v6 if c in num_features_all]
cat_features_v6 = [c for c in selected_vars_v6 if c not in num_features_v6]

try:
    ohe_final = OneHotEncoder(handle_unknown="ignore", sparse_output=True, min_frequency=10)
except TypeError:
    ohe_final = OneHotEncoder(handle_unknown="ignore", sparse=True)

pre_final = ColumnTransformer(
    transformers=[
        ("num", Pipeline([("imputer", SimpleImputer(strategy="median")), ("scaler", StandardScaler())]), num_features_v6),
        ("cat", Pipeline([("imputer", SimpleImputer(strategy="most_frequent")), ("onehot", ohe_final)]), cat_features_v6),
    ],
    remainder="drop"
)

candidate_configs = []
for penalty in ["l2", "l1"]:
    for C in [0.01, 0.05, 0.10, 0.25, 0.50, 1.00, 2.00]:
        for cw_name, cw in [("none", None), ("balanced", "balanced"), ("risk_5", {0:1,1:5}), ("risk_10", {0:1,1:10}), ("risk_20", {0:1,1:20}), ("risk_40", {0:1,1:40})]:
            solver = "liblinear" if penalty in ["l1", "l2"] else "saga"
            candidate_configs.append({"penalty": penalty, "C": C, "class_weight_name": cw_name, "class_weight": cw, "solver": solver, "l1_ratio": None})
# ElasticNet sólo con saga.
for C in [0.05, 0.10, 0.25, 0.50, 1.00]:
    for l1_ratio in [0.25, 0.50, 0.75]:
        for cw_name, cw in [("balanced", "balanced"), ("risk_10", {0:1,1:10}), ("risk_20", {0:1,1:20})]:
            candidate_configs.append({"penalty": "elasticnet", "C": C, "class_weight_name": cw_name, "class_weight": cw, "solver": "saga", "l1_ratio": l1_ratio})

model_rows = []
model_store = {}
threshold_rows = []

for i, cfg in enumerate(candidate_configs, start=1):
    model_id = f"V6_{i:03d}_{cfg['penalty']}_C{cfg['C']}_{cfg['class_weight_name']}_l1r{cfg['l1_ratio']}"
    clf_params = dict(
        penalty=cfg["penalty"], C=cfg["C"], solver=cfg["solver"], class_weight=cfg["class_weight"],
        max_iter=6000, random_state=RANDOM_STATE
    )
    if cfg["penalty"] == "elasticnet":
        clf_params["l1_ratio"] = cfg["l1_ratio"]
    try:
        pipe = Pipeline([("pre", pre_final), ("clf", LogisticRegression(**clf_params))])
        pipe.fit(X_train[selected_vars_v6], y_train)
        p_val = pipe.predict_proba(X_val[selected_vars_v6])[:,1]
        roc_val = roc_auc_score(y_val, p_val) if y_val.nunique() == 2 else np.nan
        pr_val = average_precision_score(y_val, p_val)
        thr_metrics = []
        for th in THRESHOLD_GRID:
            m = metrics_at_threshold(y_val, p_val, th)
            m.update({"model_id": model_id})
            threshold_rows.append(m)
            thr_metrics.append(m)
        thr_df = pd.DataFrame(thr_metrics)
        # Selección experta: beneficio, luego F2, luego PR-AUC. Penaliza modelos que no detectan nada.
        thr_df["score_operacional"] = thr_df["beneficio_neto_usd"] + 1000 * thr_df["TP"] + 10000 * thr_df["f2"]
        best_thr_row = thr_df.sort_values(["score_operacional", "beneficio_neto_usd", "f2", "recall_sensitivity"], ascending=False).iloc[0]
        model_rows.append({
            "model_id": model_id, "penalty": cfg["penalty"], "C": cfg["C"], "class_weight": cfg["class_weight_name"], "l1_ratio": cfg["l1_ratio"],
            "roc_auc_val": roc_val, "pr_auc_val": pr_val,
            "best_threshold_val": best_thr_row["threshold"], "TP_val": best_thr_row["TP"], "FP_val": best_thr_row["FP"], "FN_val": best_thr_row["FN"], "TN_val": best_thr_row["TN"],
            "recall_val": best_thr_row["recall_sensitivity"], "precision_val": best_thr_row["precision_ppv"], "f2_val": best_thr_row["f2"],
            "beneficio_val_usd": best_thr_row["beneficio_neto_usd"], "score_operacional": best_thr_row["score_operacional"],
            "estado": "OK"
        })
        model_store[model_id] = pipe
    except Exception as e:
        model_rows.append({"model_id": model_id, "penalty": cfg["penalty"], "C": cfg["C"], "class_weight": cfg["class_weight_name"], "l1_ratio": cfg["l1_ratio"], "estado": "ERROR", "error": str(e)[:250]})

model_leaderboard = pd.DataFrame(model_rows)
threshold_leaderboard_val = pd.DataFrame(threshold_rows)
model_leaderboard_ok = model_leaderboard[model_leaderboard["estado"].eq("OK")].copy()
model_leaderboard_ok = model_leaderboard_ok.sort_values(["score_operacional", "beneficio_val_usd", "f2_val", "pr_auc_val"], ascending=False)

best_model_id = model_leaderboard_ok.iloc[0]["model_id"]
best_threshold = float(model_leaderboard_ok.iloc[0]["best_threshold_val"])
best_model = model_store[best_model_id]

print("Modelos candidatos entrenados OK:", len(model_leaderboard_ok))
print("Modelo seleccionado V6.0:", best_model_id)
print("Threshold seleccionado por validación:", best_threshold)
display(model_leaderboard_ok.head(20))
model_leaderboard.to_csv(OUTPUT_DIR / "V6_0_leaderboard_modelos_logisticos.csv", index=False)
threshold_leaderboard_val.to_csv(OUTPUT_DIR / "V6_0_thresholds_validacion_todos_modelos.csv", index=False)

plt.figure(figsize=(10,4))
top_plot = model_leaderboard_ok.head(15).copy()
plt.barh(top_plot["model_id"], top_plot["beneficio_val_usd"])
plt.title("Top modelos V6.0 por beneficio validación")
plt.xlabel("Beneficio neto USD")
plt.gca().invert_yaxis()
savefig("V6_0_top_modelos_beneficio_validacion.png")

print("Explicación estadística:")
print("Se comparan regresiones L1, L2 y ElasticNet con distintos pesos de clase y regularización C. La selección se realiza en validación temporal.")
print("Lectura operacional:")
print("El mejor modelo no es el de mayor accuracy, sino el que detecta reclamos con mejor trade-off económico entre TP y FP.")
print("Recomendación ML:")
print("Mantener el leaderboard completo como evidencia de experimentación. La defensa debe mostrar por qué se eligió el modelo final y no sólo reportar una métrica aislada.")

====================================================================================================
06 — SELECCIÓN DE VARIABLES Y ENTRENAMIENTO V6.0
====================================================================================================
Resumen LASSO por C:

C LASSO seleccionado: 0.05
Variables iniciales V4.0 disponibles: 33
Variables finales V6.0: 18
['macro_mercado', 'portainjerto', 'temporada', 'tipo_contenedor', 'linea_packing', 'puerto_salida', 'naviera', 'subzona_agroclimatica', 'packhouse_id', 'ph_suelo', 'materia_seca_pct', 'edad_arboles_anos', 'firmeza_pulpa_lb', 'densidad_arboles_ha', 'quiebre_cadena_frio_h', 'temperatura_setpoint_frio_c', 'canal_destino', 'atmosfera_controlada']

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_variables_finales_por_nivel.png

Explicación estadística:
V6.0 reduce dimensionalidad con LASSO y controla multicolinealidad numérica con VIF. Esto mejora estabilidad de coeficientes y defendibilidad.
Lectura operacional:
Menos variables implica menor dependencia de datos difíciles de capturar y mayor facilidad de explicar por qué un lote fue priorizado.
Recomendación ML:
Usar este set reducido como modelo base interpretable. Si una variable clave de negocio queda fuera, puede reingresarse como restricción experta y compararse contra el ranking automático.
Modelos candidatos entrenados OK: 129
Modelo seleccionado V6.0: V6_067_l1_C0.5_none_l1rNone
Threshold seleccionado por validación: 0.03

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_top_modelos_beneficio_validacion.png

Explicación estadística:
Se comparan regresiones L1, L2 y ElasticNet con distintos pesos de clase y regularización C. La selección se realiza en validación temporal.
Lectura operacional:
El mejor modelo no es el de mayor accuracy, sino el que detecta reclamos con mejor trade-off económico entre TP y FP.
Recomendación ML:
Mantener el leaderboard completo como evidencia de experimentación. La defensa debe mostrar por qué se eligió el modelo final y no sólo reportar una métrica aislada.

# ======================================================================================
# 07. CALIBRACIÓN — DIAGNÓSTICO DE PROBABILIDADES
# ======================================================================================

print_step("07 — CALIBRACIÓN V6.0")

# Probabilidades raw del modelo seleccionado.
p_val_raw = best_model.predict_proba(X_val[selected_vars_v6])[:,1]
p_test_raw = best_model.predict_proba(X_test[selected_vars_v6])[:,1]

calibration_used = "raw_no_calibrado"
p_val = p_val_raw.copy()
p_test = p_test_raw.copy()

# Calibración opcional sólo como alternativa diagnóstica. Se usa cv='prefit' si está disponible.
try:
    try:
        calibrator = CalibratedClassifierCV(best_model, method="sigmoid", cv="prefit")
    except TypeError:
        calibrator = CalibratedClassifierCV(estimator=best_model, method="sigmoid", cv="prefit")
    calibrator.fit(X_val[selected_vars_v6], y_val)
    p_val_cal = calibrator.predict_proba(X_val[selected_vars_v6])[:,1]
    p_test_cal = calibrator.predict_proba(X_test[selected_vars_v6])[:,1]
    brier_raw = brier_score_loss(y_val, p_val_raw)
    brier_cal = brier_score_loss(y_val, p_val_cal)
    # Usar calibración sólo si mejora Brier sin destruir ranking PR-AUC.
    if brier_cal <= brier_raw:
        p_val = p_val_cal
        p_test = p_test_cal
        calibration_used = "sigmoid_prefit_validacion"
    print("Brier raw:", round(brier_raw, 5), "| Brier calibrado:", round(brier_cal, 5), "| usado:", calibration_used)
except Exception as e:
    print("[WARNING] Calibración no aplicada:", e)

calibration_rows = []
for split_name, y_true, proba in [("validacion", y_val, p_val), ("test", y_test, p_test)]:
    calibration_rows.append({
        "split": split_name,
        "brier_score": brier_score_loss(y_true, proba),
        "roc_auc": roc_auc_score(y_true, proba) if y_true.nunique() == 2 else np.nan,
        "pr_auc": average_precision_score(y_true, proba),
        "proba_min": float(np.min(proba)),
        "proba_p50": float(np.percentile(proba, 50)),
        "proba_p90": float(np.percentile(proba, 90)),
        "proba_max": float(np.max(proba)),
    })
calibration_summary = pd.DataFrame(calibration_rows)
display(calibration_summary)
calibration_summary.to_csv(OUTPUT_DIR / "V6_0_calibracion_resumen.csv", index=False)

plt.figure(figsize=(6,5))
try:
    frac_pos, mean_pred = calibration_curve(y_val, p_val, n_bins=8, strategy="quantile")
    plt.plot(mean_pred, frac_pos, marker="o", label="Validación")
    plt.plot([0,1], [0,1], linestyle="--", label="Perfecta")
    plt.title("Curva de calibración — Validación")
    plt.xlabel("Probabilidad media predicha")
    plt.ylabel("Frecuencia observada")
    plt.legend()
    savefig("V6_0_curva_calibracion_validacion.png")
except Exception as e:
    print("No fue posible graficar calibración:", e)

print("Explicación estadística:")
print("La calibración evalúa si una probabilidad predicha de 10% se comporta empíricamente como un riesgo cercano al 10%.")
print("Lectura operacional:")
print("En eventos raros, el ranking puede ser útil aunque las probabilidades absolutas requieran calibración.")
print("Recomendación ML:")
print("Usar probabilidades para priorización y revisar calibración por temporada antes de fijar reglas automáticas.")

====================================================================================================
07 — CALIBRACIÓN V6.0
====================================================================================================
Brier raw: 0.0112 | Brier calibrado: 0.01118 | usado: sigmoid_prefit_validacion

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_curva_calibracion_validacion.png

Explicación estadística:
La calibración evalúa si una probabilidad predicha de 10% se comporta empíricamente como un riesgo cercano al 10%.
Lectura operacional:
En eventos raros, el ranking puede ser útil aunque las probabilidades absolutas requieran calibración.
Recomendación ML:
Usar probabilidades para priorización y revisar calibración por temporada antes de fijar reglas automáticas.

# ======================================================================================
# 08. MÉTRICAS COMPLETAS — MATRIZ DE CONFUSIÓN, ROC, PR, THRESHOLDS
# ======================================================================================

print_step("08 — MÉTRICAS Y MATRIZ DE CONFUSIÓN V6.0")

def eval_split(split_name, y_true, proba, threshold):
    m = metrics_at_threshold(y_true, proba, threshold)
    m.update({
        "split": split_name,
        "roc_auc": roc_auc_score(y_true, proba) if y_true.nunique() == 2 else np.nan,
        "pr_auc": average_precision_score(y_true, proba),
        "brier_score": brier_score_loss(y_true, proba),
        "threshold_usado": threshold,
    })
    return m

metrics_summary = pd.DataFrame([
    eval_split("validacion", y_val, p_val, best_threshold),
    eval_split("test", y_test, p_test, best_threshold),
])
display(metrics_summary)
metrics_summary.to_csv(OUTPUT_DIR / "V6_0_metricas_validacion_test.csv", index=False)

# Matriz de confusión como tabla y heatmap.
for split_name, y_true, proba in [("validacion", y_val, p_val), ("test", y_test, p_test)]:
    y_pred = (proba >= best_threshold).astype(int)
    cm = confusion_matrix(y_true, y_pred, labels=[0,1])
    cm_df = pd.DataFrame(cm, index=["Real 0", "Real 1"], columns=["Pred 0", "Pred 1"])
    print(f"\nMatriz de confusión — {split_name.upper()} | threshold={best_threshold:.4f}")
    display(cm_df)
    cm_df.to_csv(OUTPUT_DIR / f"V6_0_matriz_confusion_{split_name}.csv")
    plt.figure(figsize=(5,4))
    plt.imshow(cm, aspect="auto")
    plt.title(f"Matriz de confusión — {split_name}")
    plt.xticks([0,1], ["Pred 0", "Pred 1"])
    plt.yticks([0,1], ["Real 0", "Real 1"])
    for (i,j), val in np.ndenumerate(cm):
        plt.text(j, i, int(val), ha="center", va="center")
    plt.colorbar(label="Casos")
    savefig(f"V6_0_matriz_confusion_{split_name}.png")

# Curvas ROC y PR.
for split_name, y_true, proba in [("validacion", y_val, p_val), ("test", y_test, p_test)]:
    if y_true.nunique() == 2:
        fpr, tpr, _ = roc_curve(y_true, proba)
        precision, recall, _ = precision_recall_curve(y_true, proba)
        plt.figure(figsize=(6,4))
        plt.plot(fpr, tpr, label=f"ROC-AUC={roc_auc_score(y_true, proba):.3f}")
        plt.plot([0,1],[0,1], linestyle="--")
        plt.title(f"Curva ROC — {split_name}")
        plt.xlabel("FPR")
        plt.ylabel("TPR / Recall")
        plt.legend()
        savefig(f"V6_0_roc_{split_name}.png")
        plt.figure(figsize=(6,4))
        plt.plot(recall, precision, label=f"PR-AUC={average_precision_score(y_true, proba):.3f}")
        plt.title(f"Curva Precision-Recall — {split_name}")
        plt.xlabel("Recall")
        plt.ylabel("Precision")
        plt.legend()
        savefig(f"V6_0_pr_{split_name}.png")

# Tabla de thresholds en test.
thr_test_rows = []
for th in THRESHOLD_GRID:
    row = metrics_at_threshold(y_test, p_test, th)
    row["split"] = "test"
    thr_test_rows.append(row)
threshold_table_test = pd.DataFrame(thr_test_rows)
display(threshold_table_test[["threshold","TP","FP","FN","TN","recall_sensitivity","precision_ppv","f2","beneficio_neto_usd"]])
threshold_table_test.to_csv(OUTPUT_DIR / "V6_0_thresholds_test.csv", index=False)

plt.figure(figsize=(8,4))
plt.plot(threshold_table_test["threshold"], threshold_table_test["beneficio_neto_usd"], marker="o")
plt.axvline(best_threshold, linestyle="--", label=f"threshold validación {best_threshold:.3f}")
plt.title("Beneficio neto por threshold — Test")
plt.xlabel("Threshold")
plt.ylabel("Beneficio neto USD")
plt.legend()
savefig("V6_0_beneficio_threshold_test.png")

# Diagnóstico automático honesto.
test_row = metrics_summary[metrics_summary["split"].eq("test")].iloc[0]
if test_row["TP"] == 0:
    diagnostico_v6 = "NO APTO OPERATIVO: el modelo no detecta reclamos reales en test con el threshold seleccionado."
elif test_row["beneficio_neto_usd"] <= 0:
    diagnostico_v6 = "APTO SOLO COMO PRIORIZADOR EXPERIMENTAL: detecta reclamos, pero el costo de falsas alarmas supera el beneficio bajo supuestos actuales."
else:
    diagnostico_v6 = "APTO COMO PRIORIZADOR DE REVISIÓN: detecta reclamos y genera beneficio neto positivo bajo los supuestos definidos."
print("Diagnóstico experto V6.0:", diagnostico_v6)

print("Explicación estadística:")
print("La matriz de confusión transforma probabilidades en decisiones. En eventos raros, PR-AUC, Recall, FP y TP son más informativos que Accuracy.")
print("Lectura operacional:")
print("TP son reclamos priorizados correctamente; FN son reclamos que escapan; FP son revisiones innecesarias; TN son liberaciones correctas.")
print("Recomendación ML:")
print("No declarar el modelo operativo si TP=0 o si el beneficio económico es negativo. Ajustar threshold por capacidad real de revisión.")

====================================================================================================
08 — MÉTRICAS Y MATRIZ DE CONFUSIÓN V6.0
====================================================================================================

Matriz de confusión — VALIDACION | threshold=0.0300

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_matriz_confusion_validacion.png

Matriz de confusión — TEST | threshold=0.0300

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_matriz_confusion_test.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_roc_validacion.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_pr_validacion.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_roc_test.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_pr_test.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_beneficio_threshold_test.png

# ======================================================================================
# 09. INTERPRETABILIDAD — COEFICIENTES, ODDS RATIOS Y EFECTOS MARGINALES
# ======================================================================================

print_step("09 — INTERPRETABILIDAD V6.0")

# Coeficientes del modelo seleccionado.
try:
    fnames_final = best_model.named_steps["pre"].get_feature_names_out()
    coefs_final = best_model.named_steps["clf"].coef_[0]
    coef_table = pd.DataFrame({"feature_ohe": fnames_final, "coef_log_odds": coefs_final})
    coef_table["odds_ratio"] = np.exp(np.clip(coef_table["coef_log_odds"], -20, 20))
    coef_table["abs_coef"] = coef_table["coef_log_odds"].abs()
    coef_table["variable_original"] = coef_table["feature_ohe"].apply(lambda x: feature_name_to_original(x, num_features_v6, cat_features_v6))
    coef_table = coef_table.sort_values("abs_coef", ascending=False)
    display(coef_table.head(40))
    coef_table.to_csv(OUTPUT_DIR / "V6_0_coeficientes_odds_ratios.csv", index=False)

    var_effects = coef_table.groupby("variable_original", as_index=False).agg(
        coef_abs_total=("abs_coef", "sum"),
        max_abs_coef=("abs_coef", "max"),
        n_coef=("coef_log_odds", "size"),
        or_max=("odds_ratio", "max"),
        or_min=("odds_ratio", "min")
    ).sort_values("coef_abs_total", ascending=False)
    var_effects = var_effects.merge(selected_feature_inventory_v6[["variable", "nivel", "nombre_nivel", "area", "justificacion"]], left_on="variable_original", right_on="variable", how="left")
    display(var_effects)
    var_effects.to_csv(OUTPUT_DIR / "V6_0_efectos_por_variable_y_nivel.csv", index=False)

    plt.figure(figsize=(9,5))
    top_coef = coef_table.head(20).iloc[::-1]
    plt.barh(top_coef["feature_ohe"], top_coef["coef_log_odds"])
    plt.title("Top coeficientes absolutos — Regresión Logística V6.0")
    plt.xlabel("Coeficiente log-odds")
    savefig("V6_0_top_coeficientes_log_odds.png")

    level_effects = var_effects.groupby(["nivel", "nombre_nivel"], dropna=False).agg(efecto_abs_total=("coef_abs_total", "sum"), variables=("variable_original", "nunique")).reset_index()
    display(level_effects)
    level_effects.to_csv(OUTPUT_DIR / "V6_0_efectos_agregados_por_nivel.csv", index=False)
    plt.figure(figsize=(8,4))
    plt.bar(level_effects["nivel"].astype(str) + "\n" + level_effects["nombre_nivel"].astype(str), level_effects["efecto_abs_total"])
    plt.title("Efecto agregado absoluto por nivel")
    plt.ylabel("Suma |coeficientes|")
    plt.xticks(rotation=20, ha="right")
    savefig("V6_0_efecto_agregado_por_nivel.png")
except Exception as e:
    print("No se pudieron extraer coeficientes:", e)

# Efectos marginales aproximados por perturbación en variables numéricas.
marginal_rows = []
baseline = X_test[selected_vars_v6].copy()
base_p = p_test.copy()
for v in num_features_v6:
    try:
        x_alt = baseline.copy()
        sd = pd.to_numeric(X_train[v], errors="coerce").std()
        if not np.isfinite(sd) or sd == 0:
            continue
        x_alt[v] = pd.to_numeric(x_alt[v], errors="coerce") + sd
        p_alt = best_model.predict_proba(x_alt[selected_vars_v6])[:,1]
        marginal_rows.append({"variable": v, "delta": "+1 desviación estándar", "efecto_marginal_promedio_pp": float((p_alt - base_p).mean()*100)})
    except Exception:
        pass
marginal_effects = pd.DataFrame(marginal_rows).sort_values("efecto_marginal_promedio_pp", key=lambda s: s.abs(), ascending=False) if marginal_rows else pd.DataFrame()
if not marginal_effects.empty:
    display(marginal_effects)
    marginal_effects.to_csv(OUTPUT_DIR / "V6_0_efectos_marginales_aproximados.csv", index=False)

print("Explicación estadística:")
print("El coeficiente positivo aumenta log-odds y OR>1 aumenta odds de reclamo. Un OR<1 reduce odds, manteniendo constantes las demás variables.")
print("Lectura operacional:")
print("Los efectos por nivel permiten explicar si el riesgo proviene de origen, cosecha, packing, logística o contexto comercial.")
print("Recomendación ML:")
print("Usar Odds Ratios para defensa estadística y efectos marginales para explicar impacto promedio en probabilidad operacional.")

====================================================================================================
09 — INTERPRETABILIDAD V6.0
====================================================================================================

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_top_coeficientes_log_odds.png

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_efecto_agregado_por_nivel.png

Explicación estadística:
El coeficiente positivo aumenta log-odds y OR>1 aumenta odds de reclamo. Un OR<1 reduce odds, manteniendo constantes las demás variables.
Lectura operacional:
Los efectos por nivel permiten explicar si el riesgo proviene de origen, cosecha, packing, logística o contexto comercial.
Recomendación ML:
Usar Odds Ratios para defensa estadística y efectos marginales para explicar impacto promedio en probabilidad operacional.

# ======================================================================================
# 10. CAUSALIDAD OPERACIONAL Y SIMULACIONES CONTRAFACTUALES
# ======================================================================================

print_step("10 — CAUSALIDAD Y CONTRAFACTUALES V6.0")

# Nota metodológica: esto no prueba causalidad fuerte. Es sensibilidad contrafactual sobre el modelo.
cf_rows = []
base_sample = X_test[selected_vars_v6].copy()
base_risk = best_model.predict_proba(base_sample)[:,1]

for v in num_features_v6:
    try:
        q25, q50, q75 = pd.to_numeric(X_train[v], errors="coerce").quantile([0.25,0.50,0.75]).values
        for label, value in [("p25", q25), ("p50", q50), ("p75", q75)]:
            alt = base_sample.copy()
            alt[v] = value
            alt_risk = best_model.predict_proba(alt[selected_vars_v6])[:,1]
            cf_rows.append({"variable": v, "escenario": label, "valor": value, "riesgo_promedio": float(alt_risk.mean()), "delta_pp_vs_base": float((alt_risk.mean() - base_risk.mean())*100)})
    except Exception:
        pass

cf_table = pd.DataFrame(cf_rows)
if not cf_table.empty:
    display(cf_table.sort_values("delta_pp_vs_base", key=lambda s: s.abs(), ascending=False).head(30))
    cf_table.to_csv(OUTPUT_DIR / "V6_0_simulaciones_contrafactuales_numericas.csv", index=False)
    top_cf = cf_table.sort_values("delta_pp_vs_base", key=lambda s: s.abs(), ascending=False).head(15).iloc[::-1]
    plt.figure(figsize=(9,5))
    plt.barh(top_cf["variable"] + "_" + top_cf["escenario"], top_cf["delta_pp_vs_base"])
    plt.title("Contrafactuales: cambio en riesgo promedio vs base")
    plt.xlabel("Delta puntos porcentuales")
    savefig("V6_0_contrafactuales_top.png")
else:
    print("No hay variables numéricas suficientes para contrafactuales automáticos.")

print("Explicación estadística:")
print("Las simulaciones modifican una variable y mantienen las demás constantes. Sirven como sensibilidad del modelo, no como prueba causal definitiva.")
print("Lectura operacional:")
print("Ayudan a responder qué pasaría con el riesgo si una señal de madurez, logística o clima cambia de nivel.")
print("Recomendación ML:")
print("Usar estos resultados como hipótesis de gestión y validarlos con conocimiento agronómico/operacional antes de definir políticas.")

====================================================================================================
10 — CAUSALIDAD Y CONTRAFACTUALES V6.0
====================================================================================================

[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_contrafactuales_top.png

Explicación estadística:
Las simulaciones modifican una variable y mantienen las demás constantes. Sirven como sensibilidad del modelo, no como prueba causal definitiva.
Lectura operacional:
Ayudan a responder qué pasaría con el riesgo si una señal de madurez, logística o clima cambia de nivel.
Recomendación ML:
Usar estos resultados como hipótesis de gestión y validarlos con conocimiento agronómico/operacional antes de definir políticas.

# ======================================================================================
# 11. RESULTADOS DE NEGOCIO — THRESHOLD Y TOP-K
# ======================================================================================

print_step("11 — RESULTADOS DE NEGOCIO V6.0")

# Política threshold oficial desde validación.
threshold_policy = metrics_at_threshold(y_test, p_test, best_threshold)
threshold_policy.update({"politica": "threshold_validacion", "parametro": best_threshold})

# Política Top-K por capacidad de revisión.
topk_rows = []
for k in TOPK_GRID:
    n_review = max(1, int(np.ceil(len(p_test) * k)))
    cutoff = np.sort(p_test)[-n_review]
    pred_topk = (p_test >= cutoff).astype(int)
    tn, fp, fn, tp = confusion_matrix(y_test, pred_topk, labels=[0,1]).ravel()
    topk_rows.append({
        "politica": "topk_capacidad", "k_pct": k, "parametro": k,
        "TN": int(tn), "FP": int(fp), "FN": int(fn), "TP": int(tp),
        "recall_sensitivity": recall_score(y_test, pred_topk, zero_division=0),
        "precision_ppv": precision_score(y_test, pred_topk, zero_division=0),
        "beneficio_neto_usd": economic_benefit_from_cm(tn, fp, fn, tp)
    })
topk_table = pd.DataFrame(topk_rows)
business_table = pd.concat([pd.DataFrame([threshold_policy]), topk_table], ignore_index=True, sort=False)
business_table["reclamos_detectados_TP"] = business_table["TP"]
business_table["reclamos_escapados_FN"] = business_table["FN"]
business_table["falsas_alarmas_FP"] = business_table["FP"]
business_table = business_table.sort_values("beneficio_neto_usd", ascending=False)

display(business_table[["politica","parametro","TP","FP","FN","TN","recall_sensitivity","precision_ppv","beneficio_neto_usd"]])
business_table.to_csv(OUTPUT_DIR / "V6_0_resultados_negocio_threshold_topk.csv", index=False)

selected_business_policy = business_table.iloc[0].to_dict()
print("Mejor política de negocio en test:")
for k in ["politica","parametro","TP","FP","FN","TN","recall_sensitivity","precision_ppv","beneficio_neto_usd"]:
    print(k, ":", selected_business_policy.get(k))

plt.figure(figsize=(8,4))
plot_biz = business_table.copy()
plot_biz["label"] = plot_biz["politica"].astype(str) + "_" + plot_biz["parametro"].astype(str)
plt.barh(plot_biz["label"].iloc[::-1], plot_biz["beneficio_neto_usd"].iloc[::-1])
plt.title("Beneficio neto por política — Test")
plt.xlabel("USD")
savefig("V6_0_beneficio_politicas_test.png")

print("Traducción operacional:")
print("TP: reclamos reales priorizados antes del despacho.")
print("FP: lotes sanos enviados a revisión; costo operacional.")
print("FN: reclamos reales que escapan; principal pérdida económica.")
print("TN: lotes sanos correctamente liberados.")
print("Recomendación ML:")
print("Si la política Top-K supera al threshold, conviene operar por capacidad de revisión diaria/semanal en vez de una probabilidad fija.")

====================================================================================================
11 — RESULTADOS DE NEGOCIO V6.0
====================================================================================================

Mejor política de negocio en test:
politica : topk_capacidad
parametro : 0.075
TP : 6
FP : 153
FN : 23
TN : 1932
recall_sensitivity : 0.20689655172413793
precision_ppv : 0.03773584905660377
beneficio_neto_usd : 130500
[GRAFICO] Guardado: /content/capstone_outputs_V6_0_regresion_logistica_menos_variables/graficos/V6_0_beneficio_politicas_test.png

Traducción operacional:
TP: reclamos reales priorizados antes del despacho.
FP: lotes sanos enviados a revisión; costo operacional.
FN: reclamos reales que escapan; principal pérdida económica.
TN: lotes sanos correctamente liberados.
Recomendación ML:
Si la política Top-K supera al threshold, conviene operar por capacidad de revisión diaria/semanal en vez de una probabilidad fija.

# ======================================================================================
# 12. QA DEFENSA — V6.0
# ======================================================================================

print_step("12 — QA DEFENSA V6.0")

qa_v60 = f"""
# QA Defensa — Regresión Logística V6.0 con Menos Variables

## 1. ¿Qué mejora V6.0 respecto de V5.1?
V6.0 deja de entrenar una sola logística y pasa a un laboratorio de modelos candidatos. Además reduce variables con LASSO y VIF antes de seleccionar el modelo final.

## 2. ¿Por qué menos variables?
Porque mejora estabilidad, reduce multicolinealidad, facilita captura operacional y permite explicar mejor los coeficientes y Odds Ratios.

## 3. ¿Se cambian las variables oficiales de V4.0?
No. V4.0 sigue siendo el universo candidato y mantiene los 5 niveles. V6.0 selecciona un subconjunto parsimonioso dentro de ese universo.

## 4. ¿Por qué LASSO?
Porque penaliza coeficientes y puede llevar algunos a cero, funcionando como selección automática de variables dentro de una regresión logística interpretable.

## 5. ¿Por qué VIF?
Porque dos variables muy colineales pueden volver inestables los coeficientes. VIF ayuda a detectar redundancia numérica.

## 6. ¿Por qué no se usa Accuracy como métrica principal?
Porque el reclamo comercial es raro. Un modelo puede tener accuracy alta y no detectar reclamos. Se prioriza PR-AUC, Recall, F2, matriz de confusión y beneficio económico.

## 7. ¿Por qué el threshold se selecciona en validación?
Porque el test debe quedar reservado para evaluación final. Elegir threshold en test contaminaría la medición.

## 8. ¿Qué significa que el beneficio sea negativo?
Que, bajo los costos definidos, los falsos positivos y/o reclamos escapados no justifican operar la política automáticamente.

## 9. ¿Qué hacer si TP sigue bajo?
Usar el modelo como priorizador exploratorio, mejorar variables pre-despacho, incorporar históricos robustos, revisar target, y comparar con modelos no lineales manteniendo esta logística como benchmark interpretable.

## 10. Modelo final V6.0
- Modelo seleccionado: {best_model_id}
- Threshold seleccionado: {best_threshold:.4f}
- Variables finales: {len(selected_vars_v6)}
- Calibración usada: {calibration_used}
- SHAP: excluido por diseño metodológico
"""

print(qa_v60)
(OUTPUT_DIR / "V6_0_QA_Defensa.md").write_text(qa_v60, encoding="utf-8")

====================================================================================================
12 — QA DEFENSA V6.0
====================================================================================================

# QA Defensa — Regresión Logística V6.0 con Menos Variables

## 1. ¿Qué mejora V6.0 respecto de V5.1?
V6.0 deja de entrenar una sola logística y pasa a un laboratorio de modelos candidatos. Además reduce variables con LASSO y VIF antes de seleccionar el modelo final.

## 2. ¿Por qué menos variables?
Porque mejora estabilidad, reduce multicolinealidad, facilita captura operacional y permite explicar mejor los coeficientes y Odds Ratios.

## 3. ¿Se cambian las variables oficiales de V4.0?
No. V4.0 sigue siendo el universo candidato y mantiene los 5 niveles. V6.0 selecciona un subconjunto parsimonioso dentro de ese universo.

## 4. ¿Por qué LASSO?
Porque penaliza coeficientes y puede llevar algunos a cero, funcionando como selección automática de variables dentro de una regresión logística interpretable.

## 5. ¿Por qué VIF?
Porque dos variables muy colineales pueden volver inestables los coeficientes. VIF ayuda a detectar redundancia numérica.

## 6. ¿Por qué no se usa Accuracy como métrica principal?
Porque el reclamo comercial es raro. Un modelo puede tener accuracy alta y no detectar reclamos. Se prioriza PR-AUC, Recall, F2, matriz de confusión y beneficio económico.

## 7. ¿Por qué el threshold se selecciona en validación?
Porque el test debe quedar reservado para evaluación final. Elegir threshold en test contaminaría la medición.

## 8. ¿Qué significa que el beneficio sea negativo?
Que, bajo los costos definidos, los falsos positivos y/o reclamos escapados no justifican operar la política automáticamente.

## 9. ¿Qué hacer si TP sigue bajo?
Usar el modelo como priorizador exploratorio, mejorar variables pre-despacho, incorporar históricos robustos, revisar target, y comparar con modelos no lineales manteniendo esta logística como benchmark interpretable.

## 10. Modelo final V6.0
- Modelo seleccionado: V6_067_l1_C0.5_none_l1rNone
- Threshold seleccionado: 0.0300
- Variables finales: 18
- Calibración usada: sigmoid_prefit_validacion
- SHAP: excluido por diseño metodológico

2012

# ======================================================================================
# 13. REPORTE FINAL — V6.0
# ======================================================================================

print_step("13 — REPORTE FINAL V6.0")

best_row_test = metrics_summary[metrics_summary["split"].eq("test")].iloc[0].to_dict()
biz_row = selected_business_policy

report = f"""
# Reporte Final — Regresión Logística V6.0 con Menos Variables

## Objetivo
Construir un modelo de Regresión Logística interpretable para anticipar `reclamo_comercial` a nivel lote/contenedor, reduciendo variables respecto del universo V4.0 y seleccionando modelo/threshold por validación temporal y criterio económico.

## Modelo
- Algoritmo: Regresión Logística.
- Laboratorio: L1, L2 y ElasticNet con distintos `C` y `class_weight`.
- Modelo seleccionado: {best_model_id}.
- Threshold seleccionado en validación: {best_threshold:.4f}.
- Calibración: {calibration_used}.
- SHAP: excluido por diseño metodológico.

## Variables
- Universo V4.0 disponible: {len(valid_vars)} variables.
- Variables finales V6.0: {len(selected_vars_v6)} variables.
- Numéricas finales: {len(num_features_v6)}.
- Categóricas finales: {len(cat_features_v6)}.
- Niveles heredados desde V4.0: 5.

## Split
- Método: {split_method}.
- Train: {len(y_train):,} registros.
- Validación: {len(y_val):,} registros.
- Test: {len(y_test):,} registros.

## Métricas Test con threshold {best_threshold:.4f}
- ROC-AUC: {best_row_test.get('roc_auc', np.nan):.4f}
- PR-AUC: {best_row_test.get('pr_auc', np.nan):.4f}
- Recall/Sensibilidad: {best_row_test.get('recall_sensitivity', np.nan):.4f}
- Precision/PPV: {best_row_test.get('precision_ppv', np.nan):.4f}
- Specificity: {best_row_test.get('specificity', np.nan):.4f}
- Balanced Accuracy: {best_row_test.get('balanced_accuracy', np.nan):.4f}
- MCC: {best_row_test.get('mcc', np.nan):.4f}
- Beneficio neto USD threshold: {best_row_test.get('beneficio_neto_usd', np.nan):,.0f}

## Matriz de Confusión Test
- TN: {best_row_test.get('TN', 0):,.0f}
- FP: {best_row_test.get('FP', 0):,.0f}
- FN: {best_row_test.get('FN', 0):,.0f}
- TP: {best_row_test.get('TP', 0):,.0f}

## Mejor política de negocio en test
- Política: {biz_row.get('politica')}
- Parámetro: {biz_row.get('parametro')}
- Reclamos detectados TP: {biz_row.get('TP', 0):,.0f}
- Reclamos escapados FN: {biz_row.get('FN', 0):,.0f}
- Falsas alarmas FP: {biz_row.get('FP', 0):,.0f}
- Beneficio neto estimado USD: {biz_row.get('beneficio_neto_usd', 0):,.0f}

## Diagnóstico experto
{diagnostico_v6}

## Lectura operacional
V6.0 es una regresión logística más simple y defendible que V5.1 porque reduce variables, compara múltiples configuraciones y separa la decisión predictiva de la política de revisión. Si la mejor política es Top-K, el modelo debe usarse para priorizar revisión según capacidad operativa y no como bloqueo automático.

## Recomendación experta ML
Usar V6.0 como benchmark logístico final interpretable. Si el beneficio neto sigue siendo negativo o el recall insuficiente, el siguiente paso no es forzar el threshold, sino mejorar señal predictiva: históricos por cliente/mercado, variables de packing más finas, estabilidad temporal, y modelo challenger no lineal manteniendo V6.0 como explicación estadística base.
"""

print(report)
(OUTPUT_DIR / "V6_0_Reporte_Final.md").write_text(report, encoding="utf-8")

artifacts = []
for p in sorted(OUTPUT_DIR.glob("*")):
    if p.is_file():
        artifacts.append({"archivo": p.name, "ruta": str(p)})
for p in sorted(GRAF_DIR.glob("*")):
    if p.is_file():
        artifacts.append({"archivo": p.name, "ruta": str(p)})
artifacts_df = pd.DataFrame(artifacts)
display(artifacts_df)
artifacts_df.to_csv(OUTPUT_DIR / "V6_0_indice_outputs.csv", index=False)
print("[OUTPUT] Reporte final e índice de outputs guardados.")

====================================================================================================
13 — REPORTE FINAL V6.0
====================================================================================================

# Reporte Final — Regresión Logística V6.0 con Menos Variables

## Objetivo
Construir un modelo de Regresión Logística interpretable para anticipar `reclamo_comercial` a nivel lote/contenedor, reduciendo variables respecto del universo V4.0 y seleccionando modelo/threshold por validación temporal y criterio económico.

## Modelo
- Algoritmo: Regresión Logística.
- Laboratorio: L1, L2 y ElasticNet con distintos `C` y `class_weight`.
- Modelo seleccionado: V6_067_l1_C0.5_none_l1rNone.
- Threshold seleccionado en validación: 0.0300.
- Calibración: sigmoid_prefit_validacion.
- SHAP: excluido por diseño metodológico.

## Variables
- Universo V4.0 disponible: 33 variables.
- Variables finales V6.0: 18 variables.
- Numéricas finales: 7.
- Categóricas finales: 11.
- Niveles heredados desde V4.0: 5.

## Split
- Método: temporal_por_temporada.
- Train: 10,529 registros.
- Validación: 2,093 registros.
- Test: 2,114 registros.

## Métricas Test con threshold 0.0300
- ROC-AUC: 0.6473
- PR-AUC: 0.0264
- Recall/Sensibilidad: 0.1379
- Precision/PPV: 0.0310
- Specificity: 0.9400
- Balanced Accuracy: 0.5390
- MCC: 0.0379
- Beneficio neto USD threshold: 52,500

## Matriz de Confusión Test
- TN: 1,960
- FP: 125
- FN: 25
- TP: 4

## Mejor política de negocio en test
- Política: topk_capacidad
- Parámetro: 0.075
- Reclamos detectados TP: 6
- Reclamos escapados FN: 23
- Falsas alarmas FP: 153
- Beneficio neto estimado USD: 130,500

## Diagnóstico experto
APTO COMO PRIORIZADOR DE REVISIÓN: detecta reclamos y genera beneficio neto positivo bajo los supuestos definidos.

## Lectura operacional
V6.0 es una regresión logística más simple y defendible que V5.1 porque reduce variables, compara múltiples configuraciones y separa la decisión predictiva de la política de revisión. Si la mejor política es Top-K, el modelo debe usarse para priorizar revisión según capacidad operativa y no como bloqueo automático.

## Recomendación experta ML
Usar V6.0 como benchmark logístico final interpretable. Si el beneficio neto sigue siendo negativo o el recall insuficiente, el siguiente paso no es forzar el threshold, sino mejorar señal predictiva: históricos por cliente/mercado, variables de packing más finas, estabilidad temporal, y modelo challenger no lineal manteniendo V6.0 como explicación estadística base.

[OUTPUT] Reporte final e índice de outputs guardados.

	variable	nulos	tabla	pct_nulos
325	unidad_medida_base	114	reclamo_ff_detalle	1.000000
280	puerto_o_referencia	6	reclamo_documento_cabecera	0.666667
281	documento_referenciado	6	reclamo_documento_cabecera	0.666667
274	codigo_postal	5	reclamo_documento_cabecera	0.555556
273	direccion	3	reclamo_documento_cabecera	0.333333
282	ff_id_referenciado	3	reclamo_documento_cabecera	0.333333
276	forma_pago	3	reclamo_documento_cabecera	0.333333
278	monto_neto	3	reclamo_documento_cabecera	0.333333
279	monto_total	3	reclamo_documento_cabecera	0.333333
361	parametro_id	7	hab_causa_defecto	0.318182
261	observacion_inspector	929	insp	0.063043
142	aceite_estimado_pct	3669	cosecha	0.060665
236	observacion_destino	3575	expo	0.060651
235	inspector_destino	2945	expo	0.049963
114	observacion_jefe_campo	2442	cosecha	0.040377
141	brix_pct	2079	cosecha	0.034375
209	fungicida_poscosecha	1838	expo	0.031182
319	destino_ff	3	reclamo_ff_detalle	0.026316
318	departure_date	3	reclamo_ff_detalle	0.026316
317	cliente_nombre_ff	3	reclamo_ff_detalle	0.026316
316	cliente_codigo_ff	3	reclamo_ff_detalle	0.026316
315	numero_pedido	3	reclamo_ff_detalle	0.026316
314	entrega	3	reclamo_ff_detalle	0.026316
313	ff_id	3	reclamo_ff_detalle	0.026316
320	pais_origen	3	reclamo_ff_detalle	0.026316
321	codigo_producto	3	reclamo_ff_detalle	0.026316
322	product_packaging	3	reclamo_ff_detalle	0.026316
323	numero_boxes_lot	3	reclamo_ff_detalle	0.026316
333	fecha_embalaje	3	reclamo_ff_detalle	0.026316
334	codigo_productor	3	reclamo_ff_detalle	0.026316

	C	roc_auc_val	pr_auc_val	coef_no_cero	variables_originales_no_cero
0	0.005	0.735520	0.029087	58	33
1	0.010	0.665176	0.017672	63	33
2	0.020	0.659799	0.016485	63	33
3	0.050	0.730405	0.040319	63	33
4	0.100	0.689594	0.026249	64	33
5	0.200	0.759133	0.033847	64	33
6	0.500	0.697942	0.030766	64	33
7	1.000	0.779362	0.030759	64	33

	model_id	penalty	C	class_weight	l1_ratio	roc_auc_val	pr_auc_val	best_threshold_val	TP_val	FP_val	FN_val	TN_val	recall_val	precision_val	f2_val	beneficio_val_usd	score_operacional	estado
66	V6_067_l1_C0.5_none_l1rNone	l1	0.50	none	NaN	0.758438	0.049735	0.030	6	59	18	2010	0.250000	0.092308	0.186335	271500	279363.354037	OK
12	V6_013_l2_C0.1_none_l1rNone	l2	0.10	none	NaN	0.766292	0.049873	0.030	7	107	17	1962	0.291667	0.061404	0.166667	259500	268166.666667	OK
72	V6_073_l1_C1.0_none_l1rNone	l1	1.00	none	NaN	0.757713	0.048099	0.030	6	74	18	1995	0.250000	0.075000	0.170455	249000	256704.545455	OK
56	V6_057_l1_C0.1_risk_5_l1rNone	l1	0.10	risk_5	NaN	0.759908	0.045798	0.125	6	77	18	1992	0.250000	0.072289	0.167598	244500	252175.977654	OK
47	V6_048_l1_C0.01_risk_40_l1rNone	l1	0.01	risk_40	NaN	0.767017	0.039447	0.500	6	82	18	1987	0.250000	0.068182	0.163043	237000	244630.434783	OK
62	V6_063_l1_C0.25_risk_5_l1rNone	l1	0.25	risk_5	NaN	0.758398	0.047348	0.125	6	94	18	1975	0.250000	0.060000	0.153061	219000	226530.612245	OK
3	V6_004_l2_C0.01_risk_10_l1rNone	l2	0.01	risk_10	NaN	0.772273	0.049217	0.200	7	138	17	1931	0.291667	0.048276	0.145228	213000	221452.282158	OK
6	V6_007_l2_C0.05_none_l1rNone	l2	0.05	none	NaN	0.757955	0.051366	0.020	12	342	12	1727	0.500000	0.033898	0.133333	207000	220333.333333	OK
68	V6_069_l1_C0.5_risk_5_l1rNone	l1	0.50	risk_5	NaN	0.760110	0.046763	0.125	6	102	18	1967	0.250000	0.055556	0.147059	207000	214470.588235	OK
8	V6_009_l2_C0.05_risk_5_l1rNone	l2	0.05	risk_5	NaN	0.767098	0.046233	0.075	15	470	9	1599	0.625000	0.030928	0.129088	195000	211290.877797	OK
30	V6_031_l2_C1.0_none_l1rNone	l2	1.00	none	NaN	0.760814	0.047722	0.040	5	64	19	2005	0.208333	0.072464	0.151515	204000	210515.151515	OK
74	V6_075_l1_C1.0_risk_5_l1rNone	l1	1.00	risk_5	NaN	0.762607	0.046580	0.125	6	107	18	1962	0.250000	0.053097	0.143541	199500	206935.406699	OK
36	V6_037_l2_C2.0_none_l1rNone	l2	2.00	none	NaN	0.760955	0.047166	0.040	5	67	19	2002	0.208333	0.069444	0.148810	199500	205988.095238	OK
80	V6_081_l1_C2.0_risk_5_l1rNone	l1	2.00	risk_5	NaN	0.763573	0.046334	0.125	6	109	18	1960	0.250000	0.052174	0.142180	196500	203921.800948	OK
39	V6_040_l2_C2.0_risk_10_l1rNone	l2	2.00	risk_10	NaN	0.764097	0.046161	0.250	6	109	18	1960	0.250000	0.052174	0.142180	196500	203921.800948	OK
46	V6_047_l1_C0.01_risk_20_l1rNone	l1	0.01	risk_20	NaN	0.765446	0.039624	0.300	6	111	18	1958	0.250000	0.051282	0.140845	193500	200908.450704	OK
91	V6_092_elasticnet_C0.05_risk_10_l1r0.75	elasticnet	0.05	risk_10	0.75	0.759364	0.047993	0.200	6	112	18	1957	0.250000	0.050847	0.140187	192000	199401.869159	OK
51	V6_052_l1_C0.05_risk_10_l1rNone	l1	0.05	risk_10	NaN	0.761076	0.043259	0.200	6	112	18	1957	0.250000	0.050847	0.140187	192000	199401.869159	OK
14	V6_015_l2_C0.1_risk_5_l1rNone	l2	0.10	risk_5	NaN	0.764439	0.044928	0.150	5	74	19	1995	0.208333	0.063291	0.142857	189000	195428.571429	OK
88	V6_089_elasticnet_C0.05_risk_10_l1r0.5	elasticnet	0.05	risk_10	0.50	0.761056	0.047541	0.200	6	116	18	1953	0.250000	0.049180	0.137615	186000	193376.146789	OK

	split	brier_score	roc_auc	pr_auc	proba_min	proba_p50	proba_p90	proba_max
0	validacion	0.011181	0.758438	0.049735	0.000610	0.009608	0.025106	0.113134
1	test	0.013524	0.647284	0.026447	0.000384	0.009303	0.025301	0.136938

	threshold	TP	FP	FN	TN	recall_sensitivity	precision_ppv	f2	beneficio_neto_usd
0	0.010	19	968	10	1117	0.655172	0.019250	0.086129	-312000
1	0.020	9	367	20	1718	0.310345	0.023936	0.091463	-10500
2	0.030	4	125	25	1960	0.137931	0.031008	0.081633	52500
3	0.040	2	59	27	2026	0.068966	0.032787	0.056497	31500
4	0.050	1	30	28	2055	0.034483	0.032258	0.034014	15000
5	0.075	0	7	29	2078	0.000000	0.000000	0.000000	-10500
6	0.100	0	3	29	2082	0.000000	0.000000	0.000000	-4500
7	0.125	0	2	29	2083	0.000000	0.000000	0.000000	-3000
8	0.150	0	0	29	2085	0.000000	0.000000	0.000000	0
9	0.200	0	0	29	2085	0.000000	0.000000	0.000000	0
10	0.250	0	0	29	2085	0.000000	0.000000	0.000000	0
11	0.300	0	0	29	2085	0.000000	0.000000	0.000000	0
12	0.400	0	0	29	2085	0.000000	0.000000	0.000000	0
13	0.500	0	0	29	2085	0.000000	0.000000	0.000000	0

V6.0 · Regresión Logística

V6.0 — Regresión Logística Experta con Menos Variables¶

Principio experto V6.0¶

00_Config¶

01_Carga_BigQuery¶

02_Auditoria_Datos¶

03_Auditoria_Causal¶

04_Feature_Engineering¶

05_Split_Temporal¶

06_Seleccion_Variables_y_Entrenamiento¶

07_Calibracion¶

08_Metricas_y_Matriz_Confusion¶

09_Interpretabilidad¶

10_Causalidad_y_Contrafactuales¶

11_Resultados_Negocio¶

12_QA_Defensa¶

13_Reporte_Final¶

	alias	tabla	estado	filas	columnas
0	dim	dim_cuarteles	OK	144	46
1	clima	fact_clima	OK	14796	26
2	cosecha	fact_cosecha	OK	60480	77
3	expo	fact_exportacion	OK	58944	90
4	insp	fact_inspeccion_destino	OK	14736	24
5	reclamo_documento_cabecera	fact_reclamo_documento_cabecera	OK	9	21
6	reclamo_factura_detalle	fact_reclamo_factura_detalle	OK	9	12
7	reclamo_nota_credito_detalle	fact_reclamo_nota_credito_detalle	OK	3	15
8	reclamo_ff_detalle	fact_reclamo_ff_detalle	OK	114	28
9	hab_parametro	dim_hab_parametro_calidad	OK	18	12
10	hab_defecto	dim_hab_defecto_calidad	OK	12	8
11	hab_causa_defecto	bridge_hab_causa_defecto	OK	22	8
12	hab_protocolo	dim_hab_protocolo_operacional	OK	18	9
13	hab_etapa	dim_hab_etapa_cadena	OK	9	8
14	hab_principio	dim_hab_principio_gestion_calidad	OK	8	6

	alias	filas	columnas	pct_nulos_promedio
2	cosecha	60480	77	0.001759
3	expo	58944	90	0.001799
1	clima	14796	26	0.000000
4	insp	14736	24	0.002627
0	dim	144	46	0.000000
8	reclamo_ff_detalle	114	28	0.056391
11	hab_causa_defecto	22	8	0.039773
12	hab_protocolo	18	9	0.000000
9	hab_parametro	18	12	0.000000
10	hab_defecto	12	8	0.000000
5	reclamo_documento_cabecera	9	21	0.169312
6	reclamo_factura_detalle	9	12	0.000000
13	hab_etapa	9	8	0.000000
14	hab_principio	8	6	0.000000
7	reclamo_nota_credito_detalle	3	15	0.000000

	nivel	nombre_nivel	area	variable	justificacion	existe_en_base	estado	prioridad_modelo
0	Nivel 1	Variables Causales Directas	Madurez	materia_seca_pct	Indicador maestro de madurez funcional de la p...	True	Disponible	Candidata inmediata
1	Nivel 1	Variables Causales Directas	Madurez	desviacion_materia_seca_pct	Captura heterogeneidad de madurez; puede gener...	True	Disponible	Candidata inmediata
2	Nivel 1	Variables Causales Directas	Madurez	riesgo_heterogeneidad_score	Score derivado para cuantificar riesgo de mezc...	True	Disponible	Candidata inmediata
3	Nivel 1	Variables Causales Directas	Frío	quiebre_cadena_frio_h	Mide exposición térmica fuera de rango; puede ...	True	Disponible	Candidata inmediata
4	Nivel 1	Variables Causales Directas	Frío	tiempo_preenfriado_h	Demora en remover calor de campo aumenta riesg...	True	Disponible	Candidata inmediata
5	Nivel 1	Variables Causales Directas	Frío	temperatura_setpoint_frio_c	Temperatura objetivo debe ser coherente con ma...	True	Disponible	Candidata inmediata
6	Nivel 1	Variables Causales Directas	Logística	transito_real_dias	Mayor tránsito aumenta exposición a senescenci...	False	Gap de información	Requiere captura futura
7	Nivel 1	Variables Causales Directas	Origen	indice_vigor_ndvi_base	Vigor vegetativo se asocia a condición fisioló...	True	Disponible	Candidata inmediata
8	Nivel 1	Variables Causales Directas	Origen	subzona_agroclimatica	Define condiciones agroclimáticas y ventana de...	True	Disponible	Candidata inmediata
9	Nivel 1	Variables Causales Directas	Origen	uniformidad_riego_pct	Variabilidad de riego puede generar heterogene...	True	Disponible	Candidata inmediata
10	Nivel 2	Variables Explicativas Primarias	Origen	edad_arboles_anos	Edad del huerto puede influir en vigor, produc...	True	Disponible	Candidata inmediata
11	Nivel 2	Variables Explicativas Primarias	Origen	densidad_arboles_ha	Densidad afecta competencia, luz, vigor y desa...	True	Disponible	Candidata inmediata
12	Nivel 2	Variables Explicativas Primarias	Origen	portainjerto	Portainjerto puede influir en vigor, absorción...	True	Disponible	Candidata inmediata
13	Nivel 2	Variables Explicativas Primarias	Origen	ph_suelo	pH afecta disponibilidad nutricional y condici...	True	Disponible	Candidata inmediata
14	Nivel 2	Variables Explicativas Primarias	Origen	mo_pct	Materia orgánica se relaciona con estructura d...	True	Disponible	Candidata inmediata
15	Nivel 2	Variables Explicativas Primarias	Clima	tmin_c	Temperatura mínima precosecha afecta metabolis...	True	Disponible	Candidata inmediata
16	Nivel 2	Variables Explicativas Primarias	Clima	tmax_c	Temperatura máxima puede generar estrés térmico.	True	Disponible	Candidata inmediata
17	Nivel 2	Variables Explicativas Primarias	Clima	lluvia_mm	Lluvia precosecha puede afectar condición sani...	True	Disponible	Candidata inmediata
18	Nivel 2	Variables Explicativas Primarias	Clima	horas_frio_bajo_7c	Horas de frío pueden influir en fisiología y c...	True	Disponible	Candidata inmediata
19	Nivel 2	Variables Explicativas Primarias	Clima	horas_sobre_30c	Horas sobre 30°C capturan estrés por calor.	True	Disponible	Candidata inmediata
20	Nivel 2	Variables Explicativas Primarias	Cosecha	dias_muestreo_a_cosecha	Ventana entre muestreo y cosecha afecta repres...	True	Disponible	Candidata inmediata
21	Nivel 2	Variables Explicativas Primarias	Cosecha	semana_cosecha	Captura momento fenológico y etapa de temporada.	False	Gap de información	Requiere captura futura
22	Nivel 2	Variables Explicativas Primarias	Cosecha	mes_cosecha	Permite evaluar estacionalidad de cosecha.	False	Gap de información	Requiere captura futura
23	Nivel 2	Variables Explicativas Primarias	Packing	dias_cosecha_a_packing	Tiempo desde cosecha a packing afecta condició...	True	Disponible	Candidata inmediata
24	Nivel 2	Variables Explicativas Primarias	Madurez	firmeza_pulpa_lb	Resistencia estructural del fruto frente a dañ...	True	Disponible	Candidata inmediata
25	Nivel 2	Variables Explicativas Primarias	Madurez	calibre	Tamaño del fruto puede relacionarse con madure...	True	Disponible	Candidata inmediata
26	Nivel 2	Variables Explicativas Primarias	Madurez	peso_fruto_g	Peso captura condición física y calibre efectivo.	True	Disponible	Candidata inmediata
27	Nivel 2	Variables Explicativas Primarias	Logística	retraso_logistico_flag	Retrasos aumentan exposición a deterioro y rie...	False	Gap de información	Requiere captura futura
28	Nivel 2	Variables Explicativas Primarias	Logística	diferencia_transito_dias	Diferencia entre tránsito real y planificado.	False	Gap de información	Requiere captura futura
29	Nivel 2	Variables Explicativas Primarias	Contenedor	atmosfera_controlada	Condición de atmósfera afecta conservación y m...	True	Disponible	Candidata inmediata
30	Nivel 3	Variables de Entorno Operacional	Mercado	pais_destino	Destino puede reflejar distancia, exigencia co...	True	Disponible	Candidata inmediata
31	Nivel 3	Variables de Entorno Operacional	Mercado	macro_mercado	Agrupa destinos con comportamiento logístico y...	True	Disponible	Candidata inmediata
32	Nivel 3	Variables de Entorno Operacional	Mercado	canal_destino	Canal puede reflejar exigencia de cliente y ni...	True	Disponible	Candidata inmediata
33	Nivel 3	Variables de Entorno Operacional	Cliente	cliente_tipo	Tipo de cliente puede tener diferente estándar...	True	Disponible	Candidata inmediata
34	Nivel 3	Variables de Entorno Operacional	Packing	packhouse_id	Captura diferencias operacionales entre planta...	True	Disponible	Candidata inmediata
35	Nivel 3	Variables de Entorno Operacional	Packing	linea_packing	Diferencias de línea pueden afectar manipulaci...	True	Disponible	Candidata inmediata
36	Nivel 3	Variables de Entorno Operacional	Packing	operador_packing	Operador puede reflejar diferencias operativas...	True	Disponible	Candidata inmediata
37	Nivel 3	Variables de Entorno Operacional	Logística	naviera	Naviera captura diferencias de servicio, ruta ...	True	Disponible	Candidata inmediata
38	Nivel 3	Variables de Entorno Operacional	Logística	puerto_salida	Puerto puede asociarse a tiempos, infraestruct...	True	Disponible	Candidata inmediata
39	Nivel 3	Variables de Entorno Operacional	Contenedor	tipo_contenedor	Tipo de contenedor puede afectar conservación ...	True	Disponible	Candidata inmediata
40	Nivel 3	Variables de Entorno Operacional	Temporal	temporada	Captura cambios productivos, comerciales y cli...	True	Disponible	Candidata inmediata
41	Nivel 3	Variables de Entorno Operacional	Temporal	cosecha_temprana_flag	Cosecha temprana puede asociarse a madurez fun...	False	Gap de información	Requiere captura futura
42	Nivel 3	Variables de Entorno Operacional	Temporal	cosecha_tardia_flag	Cosecha tardía puede asociarse a sobremadurez ...	False	Gap de información	Requiere captura futura
43	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	tasa_reclamo_cliente_historica	Historial de reclamos del cliente sin mirar in...	False	Gap de información	Requiere captura futura
44	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	tasa_reclamo_mercado_historica	Historial de reclamos por macro mercado.	False	Gap de información	Requiere captura futura
45	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	tasa_reclamo_pais_historica	Historial de reclamos por país destino.	True	Disponible	Candidata inmediata
46	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	tasa_reclamo_packhouse_historica	Historial de reclamos asociado a packhouse.	False	Gap de información	Requiere captura futura
47	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	tasa_reclamo_naviera_historica	Historial de reclamos asociado a naviera.	True	Disponible	Candidata inmediata
48	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	monto_promedio_reclamo_cliente	Monto histórico promedio asociado al cliente.	False	Gap de información	Requiere captura futura
49	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	monto_promedio_reclamo_mercado	Monto histórico promedio asociado al mercado.	False	Gap de información	Requiere captura futura
50	Nivel 4	Variables de Riesgo Histórico y Comercial Acum...	Históricos	monto_promedio_reclamo_naviera	Monto histórico promedio asociado a naviera.	True	Disponible	Candidata inmediata
51	Nivel 5	Variables de Causalidad Expandida e Interacciones	Interacciones	materia_seca_x_transito	Interacción entre madurez y exposición logística.	False	Gap de información	Requiere captura futura
52	Nivel 5	Variables de Causalidad Expandida e Interacciones	Interacciones	materia_seca_x_mercado	Interacción entre madurez y exigencia de mercado.	False	Gap de información	Requiere captura futura
53	Nivel 5	Variables de Causalidad Expandida e Interacciones	Interacciones	firmeza_x_transito	Interacción entre firmeza y duración logística.	False	Gap de información	Requiere captura futura
54	Nivel 5	Variables de Causalidad Expandida e Interacciones	Interacciones	frio_x_transito	Interacción entre quiebre de frío y duración d...	False	Gap de información	Requiere captura futura
55	Nivel 5	Variables de Causalidad Expandida e Interacciones	Interacciones	ndvi_x_subzona	Interacción entre vigor del origen y zona agro...	False	Gap de información	Requiere captura futura

area	Cliente	Clima	Contenedor	Cosecha	Frío	Históricos	Interacciones	Logística	Madurez	Mercado	Origen	Packing	Temporal
nivel
Nivel 1	0	0	0	0	3	0	0	1	3	0	3	0	0
Nivel 2	0	5	1	3	0	0	0	2	3	0	5	1	0
Nivel 3	1	0	1	0	0	0	0	2	0	3	0	3	3
Nivel 4	0	0	0	0	0	8	0	0	0	0	0	0	0
Nivel 5	0	0	0	0	0	0	5	0	0	0	0	0	0

	variable	tipo_modelo	n_unique	nivel	nombre_nivel	area	justificacion
3	quiebre_cadena_frio_h	numerica	173	Nivel 1	Variables Causales Directas	Frío	Mide exposición térmica fuera de rango; puede ...
5	temperatura_setpoint_frio_c	numerica	24	Nivel 1	Variables Causales Directas	Frío	Temperatura objetivo debe ser coherente con ma...
4	tiempo_preenfriado_h	numerica	223	Nivel 1	Variables Causales Directas	Frío	Demora en remover calor de campo aumenta riesg...
1	desviacion_materia_seca_pct	numerica	184	Nivel 1	Variables Causales Directas	Madurez	Captura heterogeneidad de madurez; puede gener...
0	materia_seca_pct	numerica	1182	Nivel 1	Variables Causales Directas	Madurez	Indicador maestro de madurez funcional de la p...
2	riesgo_heterogeneidad_score	numerica	1591	Nivel 1	Variables Causales Directas	Madurez	Score derivado para cuantificar riesgo de mezc...
6	indice_vigor_ndvi_base	numerica	122	Nivel 1	Variables Causales Directas	Origen	Vigor vegetativo se asocia a condición fisioló...
7	subzona_agroclimatica	categorica	4	Nivel 1	Variables Causales Directas	Origen	Define condiciones agroclimáticas y ventana de...
8	uniformidad_riego_pct	numerica	101	Nivel 1	Variables Causales Directas	Origen	Variabilidad de riego puede generar heterogene...
15	tmax_c	numerica	257	Nivel 2	Variables Explicativas Primarias	Clima	Temperatura máxima puede generar estrés térmico.
14	tmin_c	numerica	188	Nivel 2	Variables Explicativas Primarias	Clima	Temperatura mínima precosecha afecta metabolis...
22	atmosfera_controlada	categorica	2	Nivel 2	Variables Explicativas Primarias	Contenedor	Condición de atmósfera afecta conservación y m...
16	dias_muestreo_a_cosecha	numerica	23	Nivel 2	Variables Explicativas Primarias	Cosecha	Ventana entre muestreo y cosecha afecta repres...
18	mes_cosecha	numerica	7	Nivel 2	Variables Explicativas Primarias	Cosecha	Permite evaluar estacionalidad de cosecha.
17	semana_cosecha	numerica	33	Nivel 2	Variables Explicativas Primarias	Cosecha	Captura momento fenológico y etapa de temporada.
20	firmeza_pulpa_lb	numerica	290	Nivel 2	Variables Explicativas Primarias	Madurez	Resistencia estructural del fruto frente a dañ...
21	peso_fruto_g	numerica	1615	Nivel 2	Variables Explicativas Primarias	Madurez	Peso captura condición física y calibre efectivo.
10	densidad_arboles_ha	numerica	6	Nivel 2	Variables Explicativas Primarias	Origen	Densidad afecta competencia, luz, vigor y desa...
9	edad_arboles_anos	numerica	20	Nivel 2	Variables Explicativas Primarias	Origen	Edad del huerto puede influir en vigor, produc...
13	mo_pct	numerica	114	Nivel 2	Variables Explicativas Primarias	Origen	Materia orgánica se relaciona con estructura d...
12	ph_suelo	numerica	93	Nivel 2	Variables Explicativas Primarias	Origen	pH afecta disponibilidad nutricional y condici...
11	portainjerto	categorica	5	Nivel 2	Variables Explicativas Primarias	Origen	Portainjerto puede influir en vigor, absorción...
19	dias_cosecha_a_packing	numerica	39	Nivel 2	Variables Explicativas Primarias	Packing	Tiempo desde cosecha a packing afecta condició...
29	tipo_contenedor	categorica	3	Nivel 3	Variables de Entorno Operacional	Contenedor	Tipo de contenedor puede afectar conservación ...
27	naviera	categorica	6	Nivel 3	Variables de Entorno Operacional	Logística	Naviera captura diferencias de servicio, ruta ...
28	puerto_salida	categorica	3	Nivel 3	Variables de Entorno Operacional	Logística	Puerto puede asociarse a tiempos, infraestruct...
24	canal_destino	categorica	2	Nivel 3	Variables de Entorno Operacional	Mercado	Canal puede reflejar exigencia de cliente y ni...
23	macro_mercado	categorica	4	Nivel 3	Variables de Entorno Operacional	Mercado	Agrupa destinos con comportamiento logístico y...
26	linea_packing	categorica	4	Nivel 3	Variables de Entorno Operacional	Packing	Diferencias de línea pueden afectar manipulaci...
25	packhouse_id	categorica	4	Nivel 3	Variables de Entorno Operacional	Packing	Captura diferencias operacionales entre planta...
30	temporada	categorica	7	Nivel 3	Variables de Entorno Operacional	Temporal	Captura cambios productivos, comerciales y cli...
31	mes_embarque	numerica	9	NaN	NaN	NaN	NaN
32	semana_embarque	numerica	37	NaN	NaN	NaN	NaN

	rol	temporadas
0	train	2018_2019, 2019_2020, 2020_2021, 2021_2022, 20...
1	validacion	2023_2024
2	test	2024_2025

	split	filas	positivos	tasa_reclamo
0	train	10529	101	0.009593
1	validacion	2093	24	0.011467
2	test	2114	29	0.013718

	variable	VIF
1	materia_seca_pct	5.788673
3	firmeza_pulpa_lb	5.784777
5	quiebre_cadena_frio_h	1.061216
6	temperatura_setpoint_frio_c	1.060959
2	edad_arboles_anos	1.004547
0	ph_suelo	1.003118
4	densidad_arboles_ha	1.002942

	threshold	TN	FP	FN	TP	accuracy	precision_ppv	recall_sensitivity	specificity	f1	f2	balanced_accuracy	mcc	beneficio_neto_usd	split	roc_auc	pr_auc	brier_score	threshold_usado
0	0.03	1946	123	18	6	0.932633	0.046512	0.250000	0.940551	0.078431	0.133333	0.595275	0.084359	175500	validacion	0.758438	0.049735	0.011181	0.03
1	0.03	1960	125	25	4	0.929044	0.031008	0.137931	0.940048	0.050633	0.081633	0.538989	0.037893	52500	test	0.647284	0.026447	0.013524	0.03

	feature_ohe	coef_log_odds	odds_ratio	abs_coef	variable_original
8	cat__macro_mercado_EU	2.033079	7.637568	2.033079	macro_mercado
26	cat__linea_packing_L3	-0.303052	0.738561	0.303052	linea_packing
1	num__materia_seca_pct	0.278080	1.320591	0.278080	materia_seca_pct
5	num__quiebre_cadena_frio_h	0.273244	1.314220	0.273244	quiebre_cadena_frio_h
48	cat__atmosfera_controlada_si	-0.228408	0.795799	0.228408	atmosfera_controlada
19	cat__temporada_2021_2022	-0.223822	0.799457	0.223822	temporada
30	cat__puerto_salida_Valparaiso	-0.165321	0.847622	0.165321	puerto_salida
20	cat__temporada_2022_2023	-0.161784	0.850625	0.161784	temporada
32	cat__naviera_Hapag-Lloyd	0.142091	1.152682	0.142091	naviera
18	cat__temporada_2020_2021	0.134343	1.143785	0.134343	temporada
0	num__ph_suelo	0.126232	1.134546	0.126232	ph_suelo
27	cat__linea_packing_L4	-0.126230	0.881412	0.126230	linea_packing
3	num__firmeza_pulpa_lb	-0.108924	0.896799	0.108924	firmeza_pulpa_lb
23	cat__tipo_contenedor_reefer_40	-0.082061	0.921216	0.082061	tipo_contenedor
36	cat__naviera_ONE	-0.075134	0.927619	0.075134	naviera
4	num__densidad_arboles_ha	-0.061758	0.940110	0.061758	densidad_arboles_ha
25	cat__linea_packing_L2	0.059422	1.061223	0.059422	linea_packing
34	cat__naviera_Maersk	-0.046533	0.954533	0.046533	naviera
2	num__edad_arboles_anos	-0.035067	0.965540	0.035067	edad_arboles_anos
44	cat__packhouse_id_PK_Secano	-0.012473	0.987604	0.012473	packhouse_id
15	cat__portainjerto_Zutano	0.000000	1.000000	0.000000	portainjerto
16	cat__temporada_2018_2019	0.000000	1.000000	0.000000	temporada
11	cat__portainjerto_Duke 7	0.000000	1.000000	0.000000	portainjerto
10	cat__macro_mercado_NA	0.000000	1.000000	0.000000	macro_mercado
9	cat__macro_mercado_LATAM	0.000000	1.000000	0.000000	macro_mercado
7	cat__macro_mercado_DOM	0.000000	1.000000	0.000000	macro_mercado
6	num__temperatura_setpoint_frio_c	0.000000	1.000000	0.000000	temperatura_setpoint_frio_c
14	cat__portainjerto_Toro Canyon	0.000000	1.000000	0.000000	portainjerto
13	cat__portainjerto_Mexicola	0.000000	1.000000	0.000000	portainjerto
12	cat__portainjerto_Dusa	0.000000	1.000000	0.000000	portainjerto
22	cat__tipo_contenedor_reefer_20	0.000000	1.000000	0.000000	tipo_contenedor
21	cat__tipo_contenedor_camion_frio	0.000000	1.000000	0.000000	tipo_contenedor
17	cat__temporada_2019_2020	0.000000	1.000000	0.000000	temporada
31	cat__naviera_CMA CGM	0.000000	1.000000	0.000000	naviera
29	cat__puerto_salida_San Antonio	0.000000	1.000000	0.000000	puerto_salida
28	cat__puerto_salida_N/A	0.000000	1.000000	0.000000	puerto_salida
24	cat__linea_packing_L1	0.000000	1.000000	0.000000	linea_packing
37	cat__subzona_agroclimatica_Lago Rapel	0.000000	1.000000	0.000000	subzona_agroclimatica
38	cat__subzona_agroclimatica_Secano Costero	0.000000	1.000000	0.000000	subzona_agroclimatica
33	cat__naviera_MSC	0.000000	1.000000	0.000000	naviera

	count
reclamo_comercial
0	14582
1	154

	count
reclamo_comercial
0	14582
1	154

	Pred 0	Pred 1
Real 0	1946	123
Real 1	18	6

	Pred 0	Pred 1
Real 0	1960	125
Real 1	25	4

	nivel	nombre_nivel	efecto_abs_total	variables
0	Nivel 1	Variables Causales Directas	0.551323	4
1	Nivel 2	Variables Explicativas Primarias	0.560390	6
2	Nivel 3	Variables de Entorno Operacional	3.565345	8

	variable	delta	efecto_marginal_promedio_pp
3	firmeza_pulpa_lb	+1 desviación estándar	-0.303574
4	densidad_arboles_ha	+1 desviación estándar	-0.261935
2	edad_arboles_anos	+1 desviación estándar	-0.237517
6	temperatura_setpoint_frio_c	+1 desviación estándar	-0.204467
1	materia_seca_pct	+1 desviación estándar	0.101013
5	quiebre_cadena_frio_h	+1 desviación estándar	0.094977
0	ph_suelo	+1 desviación estándar	-0.075825

	variable	escenario	valor	riesgo_promedio	delta_pp_vs_base
15	quiebre_cadena_frio_h	p25	1.30	0.007342	-0.242565
3	materia_seca_pct	p25	22.84	0.007497	-0.227119
5	materia_seca_pct	p75	27.78	0.011717	0.194927
16	quiebre_cadena_frio_h	p50	2.30	0.008154	-0.161384
0	ph_suelo	p25	6.09	0.008671	-0.109666
2	ph_suelo	p75	6.99	0.010806	0.103786
11	firmeza_pulpa_lb	p75	43.30	0.008768	-0.099989
9	firmeza_pulpa_lb	p25	34.80	0.010359	0.059135
12	densidad_arboles_ha	p25	312.00	0.010335	0.056762
4	materia_seca_pct	p50	25.27	0.009342	-0.042577
6	edad_arboles_anos	p25	8.00	0.010063	0.029502
8	edad_arboles_anos	p75	18.00	0.009489	-0.027885
14	densidad_arboles_ha	p75	400.00	0.009511	-0.025707
13	densidad_arboles_ha	p50	400.00	0.009511	-0.025707
10	firmeza_pulpa_lb	p50	39.10	0.009522	-0.024621
1	ph_suelo	p50	6.55	0.009704	-0.006330
7	edad_arboles_anos	p50	14.00	0.009714	-0.005326
17	quiebre_cadena_frio_h	p75	4.00	0.009742	-0.002581
18	temperatura_setpoint_frio_c	p25	4.90	0.009768	0.000000
19	temperatura_setpoint_frio_c	p50	5.10	0.009768	0.000000
20	temperatura_setpoint_frio_c	p75	5.40	0.009768	0.000000

	politica	parametro	TP	FP	FN	TN	recall_sensitivity	precision_ppv	beneficio_neto_usd
5	topk_capacidad	0.075	6	153	23	1932	0.206897	0.037736	130500
6	topk_capacidad	0.100	7	205	22	1880	0.241379	0.033019	112500
7	topk_capacidad	0.150	9	309	20	1776	0.310345	0.028302	76500
2	topk_capacidad	0.020	2	41	27	2044	0.068966	0.046512	58500
0	threshold_validacion	0.030	4	125	25	1960	0.137931	0.031008	52500
1	topk_capacidad	0.010	1	21	28	2064	0.034483	0.045455	28500
3	topk_capacidad	0.030	2	62	27	2023	0.068966	0.031250	27000
4	topk_capacidad	0.050	3	103	26	1982	0.103448	0.028302	25500
8	topk_capacidad	0.200	10	413	19	1672	0.344828	0.023641	-19500

	archivo	ruta
0	V6_0_QA_Defensa.md	/content/capstone_outputs_V6_0_regresion_logis...
1	V6_0_Reporte_Final.md	/content/capstone_outputs_V6_0_regresion_logis...
2	V6_0_calibracion_resumen.csv	/content/capstone_outputs_V6_0_regresion_logis...
3	V6_0_coeficientes_odds_ratios.csv	/content/capstone_outputs_V6_0_regresion_logis...
4	V6_0_efectos_agregados_por_nivel.csv	/content/capstone_outputs_V6_0_regresion_logis...
5	V6_0_efectos_marginales_aproximados.csv	/content/capstone_outputs_V6_0_regresion_logis...
6	V6_0_efectos_por_variable_y_nivel.csv	/content/capstone_outputs_V6_0_regresion_logis...
7	V6_0_importancia_lasso_por_variable.csv	/content/capstone_outputs_V6_0_regresion_logis...
8	V6_0_lasso_grid_seleccion_variables.csv	/content/capstone_outputs_V6_0_regresion_logis...
9	V6_0_leaderboard_modelos_logisticos.csv	/content/capstone_outputs_V6_0_regresion_logis...
10	V6_0_matriz_confusion_test.csv	/content/capstone_outputs_V6_0_regresion_logis...
11	V6_0_matriz_confusion_validacion.csv	/content/capstone_outputs_V6_0_regresion_logis...
12	V6_0_metricas_validacion_test.csv	/content/capstone_outputs_V6_0_regresion_logis...
13	V6_0_resultados_negocio_threshold_topk.csv	/content/capstone_outputs_V6_0_regresion_logis...
14	V6_0_simulaciones_contrafactuales_numericas.csv	/content/capstone_outputs_V6_0_regresion_logis...
15	V6_0_thresholds_test.csv	/content/capstone_outputs_V6_0_regresion_logis...
16	V6_0_thresholds_validacion_todos_modelos.csv	/content/capstone_outputs_V6_0_regresion_logis...
17	V6_0_variables_finales_menos_variables.csv	/content/capstone_outputs_V6_0_regresion_logis...
18	V6_0_vif_variables_numericas.csv	/content/capstone_outputs_V6_0_regresion_logis...
19	auditoria_carga_tablas.csv	/content/capstone_outputs_V6_0_regresion_logis...
20	auditoria_estrategica_variables_5_niveles.csv	/content/capstone_outputs_V6_0_regresion_logis...
21	base_auditada_lote_exportacion_v40.csv	/content/capstone_outputs_V6_0_regresion_logis...
22	base_enriquecida_auditoria_v40.csv	/content/capstone_outputs_V6_0_regresion_logis...
23	inventario_features_modelables_V6_0.csv	/content/capstone_outputs_V6_0_regresion_logis...
24	matriz_nivel_area_variables.csv	/content/capstone_outputs_V6_0_regresion_logis...
25	matriz_variables_niveles_oficial_V6_0.csv	/content/capstone_outputs_V6_0_regresion_logis...
26	nulos_por_variable_v40.csv	/content/capstone_outputs_V6_0_regresion_logis...
27	resumen_disponibilidad_variables_por_nivel.csv	/content/capstone_outputs_V6_0_regresion_logis...
28	resumen_tablas_v40.csv	/content/capstone_outputs_V6_0_regresion_logis...
29	split_temporal_resumen_V6_0.csv	/content/capstone_outputs_V6_0_regresion_logis...
30	01_volumetria_tablas.png	/content/capstone_outputs_V6_0_regresion_logis...
31	02_distribucion_target_oficial.png	/content/capstone_outputs_V6_0_regresion_logis...
32	V6_04_variables_modelables_por_nivel.png	/content/capstone_outputs_V6_0_regresion_logis...
33	V6_05_tasa_reclamo_por_split.png	/content/capstone_outputs_V6_0_regresion_logis...
34	V6_0_beneficio_politicas_test.png	/content/capstone_outputs_V6_0_regresion_logis...
35	V6_0_beneficio_threshold_test.png	/content/capstone_outputs_V6_0_regresion_logis...
36	V6_0_contrafactuales_top.png	/content/capstone_outputs_V6_0_regresion_logis...
37	V6_0_curva_calibracion_validacion.png	/content/capstone_outputs_V6_0_regresion_logis...
38	V6_0_efecto_agregado_por_nivel.png	/content/capstone_outputs_V6_0_regresion_logis...
39	V6_0_matriz_confusion_test.png	/content/capstone_outputs_V6_0_regresion_logis...
40	V6_0_matriz_confusion_validacion.png	/content/capstone_outputs_V6_0_regresion_logis...
41	V6_0_pr_test.png	/content/capstone_outputs_V6_0_regresion_logis...
42	V6_0_pr_validacion.png	/content/capstone_outputs_V6_0_regresion_logis...
43	V6_0_roc_test.png	/content/capstone_outputs_V6_0_regresion_logis...
44	V6_0_roc_validacion.png	/content/capstone_outputs_V6_0_regresion_logis...
45	V6_0_top_coeficientes_log_odds.png	/content/capstone_outputs_V6_0_regresion_logis...
46	V6_0_top_modelos_beneficio_validacion.png	/content/capstone_outputs_V6_0_regresion_logis...
47	V6_0_variables_finales_por_nivel.png	/content/capstone_outputs_V6_0_regresion_logis...