Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
Clasificacion por Mind Map: Clasificacion

1. Preprocesamiento

1.1. Escalado

1.1.1. Normalizar o estandarizar las variables numéricas es clave cuando los algoritmos son sensibles a la magnitud (p. ej., KNN, SVM, redes neuronales). Garantiza que todas las características contribuyan de forma equilibrada al modelo.

1.2. One-hot encoding

1.2.1. Se utiliza para transformar variables categóricas en vectores binarios, permitiendo que los algoritmos numéricos trabajen con ellas sin introducir relaciones inexistentes.

1.3. Imputación

1.3.1. Manejo de valores faltantes mediante estrategias como la media, mediana, moda o modelos predictivos. Evita la pérdida de datos y mejora la calidad del conjunto de entrenamiento.

2. Redes neuronales

2.1. MLP

2.1.1. Definicion

2.1.1.1. Un perceptrón multicapa (MLP) es una red neuronal artificial supervisada formada por una capa de entrada, una o varias capas ocultas y una capa de salida. Permite aprender patrones complejos gracias a la combinación de capas y funciones no lineales.

2.1.2. Capas

2.1.2.1. Las capas ocultas contienen neuronas interconectadas con la capa anterior y posterior; el número de capas y de neuronas por capa decidide cuánta complejidad puede capturar el modelo.

2.1.3. Activaciones

2.1.3.1. Funciones no lineales aplicadas tras la suma ponderada y el sesgo (bias) en cada neurona. Ejemplos: ReLU, sigmoide, tanh, softmax. Introducen la no linealidad necesaria para aprender relaciones complejas.

2.1.4. Regularización

2.1.4.1. Conjunto de técnicas para evitar que la red se ajuste demasiado a los datos de entrenamiento. Incluye penalización de pesos (e.g., L2), aprendizaje controlado (learning rate), evitar redes demasiado profundas o con muchas neuronas.

2.1.5. Referencias

2.1.5.1. Sejal Jaiswal. (2024, 11 de septiembre). Perceptrones multicapa en el aprendizaje automático: Guía completa. DataCamp. Recuperado de https://www.datacamp.com/es/tutorial/multilayer-perceptrons-in-machine-learning

3. Métricas

3.1. Accuracy

3.1.1. Proporción de aciertos totales. Útil cuando las clases están balanceadas.

3.2. Precisión

3.2.1. De todas las predicciones positivas, cuántas son realmente correctas. Importante en casos donde los falsos positivos son costosos

3.3. Recall (Sensibilidad)

3.3.1. De todos los positivos reales, cuántos fueron detectados por el modelo. Es crítico cuando los falsos negativos tienen un alto costo

3.4. F1-score

3.4.1. Media armónica entre precisión y recall. Equilibra ambos en un solo valor.

3.5. ROC-AUC

3.5.1. Evalúa la capacidad del modelo para distinguir entre clases, independiente del umbral.

3.6. Matriz de confusión

3.6.1. Representa visualmente los aciertos y errores (verdaderos positivos, falsos positivos, verdaderos negativos, falsos negativos).

4. Árboles y Ensambles

4.1. Árbol de decisión

4.1.1. Definicion

4.1.1.1. Es un algoritmo que se divide el espacio de datos en regiones homogéneas. Se construye de forma recursiva, seleccionando en cada paso la variable que mejor separa la muestra en grupos más puros.

4.1.2. Gini

4.1.2.1. Mide la impureza de un nodo, indicando cuán homogéneo es. Un valor cercano a 0 significa que la mayoría de los elementos pertenecen a una misma clase.

4.1.3. Entropia

4.1.3.1. Mide la cantidad de desorden o incertidumbre en los datos. Se busca minimizar la entropía para obtener divisiones más “puras”.

4.1.4. Profundidad

4.1.4.1. La profundidad de un árbol indica cuántos niveles de división tiene desde la raíz hasta las hojas. Un árbol más profundo puede capturar relaciones complejas, pero también corre más riesgo de sobreajuste.

4.1.5. Overfitting

4.1.5.1. El sobreajuste ocurre cuando el árbol se ajusta demasiado a los datos de entrenamiento, perdiendo capacidad de generalización con nuevos datos. Árboles muy profundos o con demasiadas divisiones tienden a este problema.

4.1.6. Referencia

4.1.6.1. Arboles de decisión – Parte I: Qué son los árboles de decisión. Recuperado de https://bookdown.org/content/2031/arboles-de-decision-parte-i.html#que-son-los-arboles-de-decision

4.2. Random Forest

4.2.1. Definicion

4.2.1.1. Baseado en la construcción de múltiples árboles de decisión.

4.2.1.2. Cada árbol se entrena con un subconjunto aleatorio de los datos y de las variables, y la predicción final se obtiene combinando los resultados de todos ellos (por mayoría de votos en clasificación o por promedio en regresión).

4.2.1.3. Su objetivo principal es reducir el sobreajuste de un único árbol y mejorar la precisión del modelo.

4.2.2. Bagging

4.2.2.1. Consiste en generar múltiples subconjuntos de datos a partir del conjunto original mediante muestreo con reemplazo. Cada subconjunto entrena un árbol de decisión independiente, y al final sus predicciones se combinan. Esto reduce la varianza y hace al modelo más robusto frente al ruido.

4.2.3. n_estimators

4.2.3.1. El hiperparámetro indica el número de árboles que conforman el bosque. Un número mayor de árboles suele aumentar la estabilidad y precisión del modelo, ya que la decisión final se apoya en más predicciones. Sin embargo, demasiados árboles incrementan el tiempo de entrenamiento y los costos computacionales.

4.2.4. Out-of-Bag (OOB)

4.2.4.1. En el muestreo con reemplazo, alrededor de un tercio de los datos queda fuera en cada subconjunto. Estos datos se denominan Out-of-Bag (OOB) y se utilizan como un conjunto de prueba interno. Se puede estimar el error OOB, que funciona como una medida de validación sin necesidad de separar un conjunto adicional de datos.

4.2.5. Referencia

4.2.5.1. Bookdown. (s. f.). Arboles de decisión y Random Forest – Ensambladores: Random Forest ‐ Parte I. Recuperado de https://bookdown.org/content/2031/ensambladores-random-forest-parte-i.html

4.3. Gradient Boosting

4.3.1. Definicion

4.3.1.1. Su principio se basa en construir un modelo de manera aditiva e iterativa, donde cada nuevo modelo (típicamente un árbol de decisión) corrige los errores cometidos por el modelo anterior.

4.3.2. Aprendizaje aditivo

4.3.2.1. Modelo se construye paso a paso, agregando nuevos árboles que corrigen los errores de los anteriores, lo que permite mejorar progresivamente la precisión.

4.3.3. Tasa de aprendizaje (learning rate)

4.3.3.1. Controla cuánto contribuye cada árbol al modelo final. Tasas más pequeñas producen modelos más robustos, pero requieren más iteraciones.

4.3.4. Profundidad de los árboles

4.3.4.1. Define la complejidad de los modelos base. Árboles más profundos pueden capturar relaciones complejas, pero también aumentan el riesgo de overfitting.

4.3.5. XGBoost (Extreme Gradient Boosting)

4.3.5.1. Alta precisión, muy flexible, opciones de regularización (L1/L2), manejo eficiente de valores faltantes.

4.3.5.2. Puede ser más lento en conjuntos de datos muy grandes, requiere codificación de variables categóricas.

4.3.5.3. Uso recomendado: cuando se busca máxima precisión en conjuntos de datos medianos o grandes.

4.3.6. LightGBM (Light Gradient Boosting Machine)

4.3.6.1. Extremadamente rápido y eficiente en memoria, ideal para datasets grandes, utiliza histogramas para divisiones.

4.3.6.2. Puede ser menos preciso que XGBoost en algunos casos, también requiere codificación de variables categóricas.

4.3.6.3. Uso recomendado: cuando se prioriza velocidad y escalabilidad en conjuntos de datos masivos.

4.3.7. CatBoost

4.3.7.1. Maneja variables categóricas de forma nativa (sin one-hot encoding), robusto ante valores faltantes, evita overfitting con ordered boosting.

4.3.7.2. Más lento que LightGBM en conjuntos de datos muy grandes, menos flexible en hiperparámetros.

4.3.7.3. Uso recomendado: cuando hay muchas variables categóricas y se desea simplicidad en el preprocesamiento.

4.3.8. Referencia

4.3.8.1. El Mundo de los Datos. (s. f.). Gradient Boosting explicado: XGBoost vs LightGBM vs CatBoost. Recuperado de https://elmundodelosdatos.com/gradient-boosting-explicado-xgboost-vs-lightgbm-vs-catboost/

5. Lineales

5.1. Regresion Logistica

5.1.1. Definicion

5.1.1.1. Extiende la regresión lineal al transformar la salida con la función logística (sigmoide).

5.1.1.2. Genera probabilidades entre 0 y 1 para cada clase.

5.1.1.3. Se usa principalmente en clasificación binaria (dos clases), pero también se puede generalizar a clasificación multiclase (regresión logística multinomial).

5.1.2. Funciones principales

5.1.2.1. Función logística (sigmoide): Convierte cualquier valor en un número entre 0 y 1, lo que permite interpretar el resultado como una probabilidad.

5.1.2.2. Función de predicción: Calcula la probabilidad de que una observación pertenezca a una clase determinada en función de las variables independientes.

5.1.2.3. Función de interpretación (log-odds): Explica cómo cada variable influye en el resultado, un cambio en una variable modifica la razón de probabilidades de pertenecer a una clase.

5.1.2.4. Función de decisión (umbral): Establece un punto de corte (por ejemplo, 0.5) para decidir la clase final: si la probabilidad es mayor o igual al umbral, se clasifica como positiva; si es menor, como negativa.

5.1.3. Ventajas

5.1.3.1. Proporciona probabilidades además de la clasificación.

5.1.3.2. Modelo simple, interpretable y ampliamente usado.

5.1.3.3. Requiere pocos recursos computacionales.

5.1.3.4. Puede extenderse a clasificación multiclase (Regresión Multinomial).

5.1.3.5. Funciona bien cuando la relación entre variables y clases es aproximadamente lineal en los log-odds.

5.1.4. Desventajas

5.1.4.1. Interpretación de los coeficientes es multiplicativa (odds ratio) y no tan intuitiva.

5.1.4.2. Puede fallar con separación completa (cuando una variable distingue perfectamente las clases).

5.1.4.3. No captura relaciones no lineales complejas sin agregar transformaciones o interacciones manualmente.

5.1.4.4. Su rendimiento puede ser inferior al de algoritmos más avanzados (árboles de decisión, Random Forest, CatBoost, etc.).

5.1.5. Referencia

5.1.5.1. Fedefliguer. (s. f.). Aprendizaje automático interpretable: Regresión logística. Aprendizaje automático interpretable. Recuperado de https://fedefliguer.github.io/AAI/log%C3%ADstica.html

5.2. SVM Lineal

5.2.1. Definicion

5.2.1.1. Plantea encontrar el hiperplano que separa las clases maximizando el margen entre él y los puntos más cercanos, sujeto a restricciones que obligan a que cada ejemplo quede en el lado correcto del margen.

5.2.2. Margem maximo

5.2.2.1. El margen es la distancia entre el hiperplano separador y los vectores de soporte más cercanos. Busca maximizar ese margen porque un margen mayor suele dar mejor generalización: la frontera queda más “segura” frente a ruido y pequeñas variaciones en los datos.

5.2.3. Margen relajado y el hiperparámetro C

5.2.3.1. Cuando los datos no son perfectamente separables se introducen variables de compensación (slack) que permiten errores. El hiperparámetro C pondera la penalización por errores:

5.2.3.2. un C grande prioriza pocos errores (margen más estrecho), mientras que un C pequeño permite más errores para conseguir un margen más amplio. En la práctica C controla el trade-off entre ajuste y regularización.

5.2.4. Referencia

5.2.4.1. Huijse, P. (s. f.). Support vector machines. In MachineLearningBook. Recuperado de https://phuijse.github.io/MachineLearningBook/contents/supervised_learning/svm.html

6. Probabilísticos

6.1. Naive Bayes

6.1.1. Definicion

6.1.1.1. Es un algoritmo que se basa en el teorema de Bayes, que combina probabilidades a priori y condicionales para calcular la probabilidad a posteriori de una clase.

6.1.2. Independencia condicional

6.1.2.1. La hipótesis “naïve” supone que todas las variables (palabras, atributos, etc.) son independientes entre sí dadas la clase.

6.1.2.2. Ejemplo: en un correo, se asume que la aparición de una palabra no depende de otra, aunque en la realidad sí pueda hacerlo.

6.1.2.3. Esto simplifica mucho los cálculos y permite entrenar el modelo de forma eficiente, incluso con pocos datos.

6.1.3. Variantes principales

6.1.3.1. Multinomial Naïve Bayes (MultinomialNB)

6.1.3.1.1. Útil para variables discretas (ej. recuento de palabras). Común en NLP (clasificación de spam, análisis de reseñas).

6.1.3.2. Gaussian Naïve Bayes (GaussianNB)

6.1.3.2.1. Se aplica a variables continuas que siguen una distribución normal. Se ajusta calculando media y desviación típica por clase.

6.1.4. Referencia

6.1.4.1. IBM. (s. f.). Naive Bayes. IBM Think. Recuperado de https://www.ibm.com/es-es/think/topics/naive-bayes

7. Basados en distancia

7.1. k-NN

7.1.1. Definicion

7.1.1.1. Aprendizaje supervisado, no paramétrico y basado en instancias. Clasifica o predice un punto de datos nuevo comparándolo con los ejemplos más cercanos en el conjunto de entrenamiento. No construye un modelo explícito, sino que memoriza los datos y calcula durante la predicción.

7.1.2. Parámetro k

7.1.2.1. El valor de k indica cuántos vecinos cercanos se consideran para tomar la decisión.

7.1.2.1.1. k pequeño → alta varianza, riesgo de sobreajuste.

7.1.2.1.2. k grande → mayor sesgo, predicciones más suaves, pero riesgo de perder detalles.

7.1.2.1.3. Lo ideal es encontrar un equilibrio, por ejemplo probando con validación cruzada.

7.1.3. Métricas de distancia

7.1.3.1. Euclidiana: línea recta en el espacio de características.

7.1.3.2. Manhattan: suma de distancias absolutas (camino en cuadrícula).

7.1.4. Normalización

7.1.4.1. Es recomendable escalar los datos (por ejemplo, con MinMax o StandardScaler) para que todas las variables tengan la misma importancia. De lo contrario, características con valores grandes dominarán la distancia.

7.1.5. Referencia

7.1.5.1. Elastic. (s. f.). What is k-NN. Elastic. Recuperado de https://www.elastic.co/es/what-is/knn