Paso 0 — La base de todo
La Matriz de Confusión
Antes de entender cualquier métrica, necesitas entender esta tabla de 2×2.
🏥 Analogía — El detector de enfermedades:
Un doctor examina 1,000 pacientes. Algunos están enfermos (Positivo) y otros están sanos (Negativo). La matriz registra las 4 combinaciones posibles entre la realidad y el diagnóstico del doctor.
── Lo que el modelo predijo ──
── Realidad ──
TP — Acierto
85
Estaba enfermo
y el doctor lo detectó ✓
FN — Se le escapó
15
Estaba enfermo
pero lo mandó a casa ✗
FP — Falsa alarma
20
Estaba sano
pero lo asustó sin razón ✗
TN — Acierto
880
Estaba sano
y el doctor confirmó que sí ✓
TP = 85 Aciertos en positivos: estaban enfermos y el doctor lo detectó.
TN = 880 Aciertos en negativos: estaban sanos y el doctor lo confirmó.
FP = 20 Falsas alarmas: estaban sanos pero el doctor dijo que estaban enfermos.
FN = 15 Casos escapados: estaban enfermos pero el doctor los dejó ir como "sanos".
Regla de oro: La diagonal (TP y TN) son los aciertos. Fuera de la diagonal (FP y FN) son los errores. Todas las métricas que siguen son diferentes formas de combinar estos 4 números.
Métrica 1 de 6
Accuracy (Exactitud)
"De todas las predicciones, ¿cuántas fueron correctas?"
📝 Analogía — El examen:
Un examen tiene 1,000 preguntas y aciertas 965. Tu accuracy es 96.5%. No importa qué tipo de preguntas fallaste. Solo cuenta: aciertos totales ÷ preguntas totales.
Ejemplo paso a paso
1 Sumamos los aciertos: TP=85 + TN=880 = 965
2 Sumamos todo: 85 + 880 + 20 + 15 = 1,000
3 Dividimos: 965 ÷ 1,000 = 0.965
Accuracy = 0.965 → El modelo acierta el 96.5% de las veces
⚠ La trampa del Accuracy: Si el 97% de los pacientes están sanos, un modelo que diga "todos están sanos" sin analizar nada tendrá 97% de accuracy, pero no detectó ni un solo enfermo. Esto se llama la Paradoja del Accuracy y es la razón por la que necesitamos las siguientes 5 métricas.
Métrica 2 de 6
Precision (Precisión)
"Cuando el modelo dice POSITIVO, ¿cuántas veces tiene razón?"
🎯 Analogía — El francotirador:
De todos los disparos que hizo, ¿cuántos dieron en el blanco? Si disparó 105 veces y 85 acertaron, su precision es 81%. No importa cuántos blancos NO disparó — solo importa que cuando dispara, acierte.
Ejemplo paso a paso
1 ¿Cuántas veces dijo "enfermo"? → TP=85 + FP=20 = 105 veces
2 De esas 105, ¿cuántas realmente estaban enfermas? → Solo 85
3 Dividimos: 85 ÷ 105 = 0.8095
Precision = 0.810 → Cuando dice "enfermo", acierta el 81% de las veces
¿Cuándo importa más Precision? Cuando una falsa alarma es costosa. Ejemplo: un filtro de spam que bloquea correos legítimos. Cada FP = un correo importante perdido.
Clave: Precision solo mira la columna "Predicción Positiva" de la matriz. No le importa cuántos enfermos se escaparon (FN). Solo le importa que las alarmas que activó sean correctas.
Métrica 3 de 6
Recall (Sensibilidad)
"De todos los positivos REALES, ¿cuántos encontró el modelo?"
🔍 Analogía — El detective:
En una ciudad hay 100 criminales. El detective arrestó a 85. Su Recall es 85%. No importa si también arrestó a 20 inocentes (eso es problema de Precision). Recall solo pregunta: de los 100 criminales reales, ¿a cuántos capturaste?
Ejemplo paso a paso
1 ¿Cuántos positivos reales hay? → TP=85 + FN=15 = 100 enfermos reales
2 ¿Cuántos detectó el modelo? → 85
3 Dividimos: 85 ÷ 100 = 0.850
Recall = 0.850 → Encontró al 85% de los enfermos reales
¿Cuándo importa más Recall? Cuando dejar escapar un positivo es peligroso. Ejemplo: detección de cáncer. Si un paciente con cáncer se va a casa sin diagnóstico (FN), las consecuencias son graves.
PRECISION mira →
De todos los que
DIJE positivos, ¿cuántos SÍ eran?
Foco en la
columna de predicción. Controla las
falsas alarmas.
RECALL mira →
De todos los que
ERAN positivos, ¿cuántos encontré?
Foco en la
fila real. Controla los
casos escapados.
Métrica 4 de 6
F1-Score
"Un solo número que equilibra Precision y Recall."
⚖️ Analogía — La balanza:
Precision y Recall están en los dos platos de una balanza. El F1-Score es la lectura cuando ambos están lo más equilibrados posible. Si uno de los dos es muy bajo, el F1 baja drásticamente, aunque el otro sea alto. Es como un equipo donde si un miembro falla, todo el equipo sufre.
Ejemplo paso a paso
1 Ya calculamos: Precision = 0.810 y Recall = 0.850
2 Numerador: 2 × (0.810 × 0.850) = 2 × 0.689 = 1.377
3 Denominador: 0.810 + 0.850 = 1.660
4 Dividimos: 1.377 ÷ 1.660 = 0.829
F1-Score = 0.829 → Buen equilibrio entre Precision y Recall
¿Por qué media armónica y no promedio? Porque el promedio simple esconde problemas.
Ejemplo: Precision = 0.95, Recall = 0.05.
Promedio simple = (0.95 + 0.05) / 2 = 0.50 → "parece aceptable".
F1-Score = 2 × (0.95 × 0.05) / (0.95 + 0.05) = 0.095 → Revela la verdad: el modelo es inútil.
La media armónica no permite que un valor alto "esconda" a uno bajo.
Métrica 5 de 6
ROC-AUC
"¿Qué tan bueno es el modelo para separar positivos de negativos, en TODOS los umbrales posibles?"
🎚️ Analogía — El dial de la radio:
El modelo tiene un dial (umbral) que va de 0 a 1. Si lo subes, el modelo es más exigente: dice "positivo" menos veces, lo que genera menos falsas alarmas pero deja escapar más casos. Si lo bajas, detecta más pero genera más alarmas falsas.
La curva ROC traza lo que pasa al girar el dial desde 0 hasta 1: en cada posición mide cuántos positivos detecta (TPR) vs. cuántas falsas alarmas genera (FPR).
El AUC (Área Bajo la Curva) mide qué tan bueno es el modelo en general, sin importar dónde pongas el dial.
¿Cómo interpretar el valor?
1 AUC = 1.00 → Modelo perfecto. Separa positivos de negativos sin error en algún umbral.
2 AUC = 0.90 → Excelente. Si tomas un positivo y un negativo al azar, el modelo asigna mayor score al positivo el 90% de las veces.
3 AUC = 0.70 → Aceptable pero mejorable. Hay superposición entre las distribuciones de scores.
4 AUC = 0.50 → Aleatorio. El modelo no aprendió nada. Equivale a lanzar una moneda.
Ventaja clave: A diferencia de Accuracy, Precision y Recall (que dependen de un umbral fijo), la ROC-AUC evalúa el modelo en todos los umbrales posibles. Es ideal para comparar dos modelos entre sí sin tener que elegir un umbral primero.
Métrica 6 de 6
PR-AUC (Average Precision)
"¿Qué tan bueno es el modelo para encontrar la aguja en el pajar?"
🪡 Analogía — La aguja en el pajar:
Tienes un pajar gigante (98% paja, 2% agujas). La ROC-AUC puede decir "discrimina bien" (AUC=0.95) porque se calcula sobre todo el pajar, incluyendo la montaña de paja que es fácil de clasificar.
La PR-AUC se enfoca exclusivamente en las agujas: cuando el modelo dice "encontré una aguja", ¿cuántas veces tiene razón? Y de todas las agujas reales, ¿cuántas encontró?
Si las agujas son muy pocas (<5% del total), la PR-AUC es mucho más honesta que la ROC-AUC.
ROC-AUC dice →
"El modelo discrimina bien
en general."
Mira ambas clases. Puede ser optimista cuando una clase domina.
PR-AUC dice →
"El modelo encuentra bien
los casos raros."
Solo mira la clase minoritaria. Más honesta con desbalanceo extremo.
¿Cuándo usar cada una?
1 Clases equilibradas (50/50): ROC-AUC y PR-AUC cuentan la misma historia. Usa cualquiera.
2 Desbalanceo leve (80/20): ROC-AUC es confiable. PR-AUC como complemento.
3 Desbalanceo severo (99/1): PR-AUC es más reveladora. ROC-AUC puede ser engañosamente alta.
4 Comparar entre datasets distintos: ROC-AUC es más estable al cambiar la prevalencia.
Ejemplo real: Un modelo de detección de fraude (1% de fraude) puede tener ROC-AUC = 0.96 pero PR-AUC = 0.35. La ROC-AUC parece excelente, pero la PR-AUC revela que cuando el modelo señala un fraude, falla el 65% de las veces. Si solo miras ROC-AUC, desplegarías un modelo deficiente.
Síntesis final
Mapa de Decisión Rápida
Antes de elegir métricas, hazle esta pregunta a tu stakeholder.
💡 La pregunta definitiva:
"¿Qué es más costoso para el negocio: una falsa alarma (FP) o un caso que se nos escape (FN)?"
Si FP es más costoso (bloquear correos legítimos) → Optimiza Precision
Si FN es más costoso (no detectar cáncer) → Optimiza Recall
Si ambos importan (fraude financiero) → Optimiza F1-Score
Para comparar modelos → Usa ROC-AUC
Si el evento es raro (<5%) → Agrega PR-AUC
Nunca → Reportes solo Accuracy como única métrica
Regla profesional: Un reporte de evaluación robusto incluye como mínimo: la Matriz de Confusión visual + Precision, Recall y F1 por clase + al menos una métrica independiente del umbral (ROC-AUC o PR-AUC). Accuracy es útil como contexto, pero nunca como criterio único de decisión.