1. ¿Qué es un algoritmo de clasificación?
1.1. Es un conjunto de operaciones seguidas en un orden preciso para resolver un problema o aportar nuevas soluciones. En Machine Learning. Permite al software aprender de forma independiente a partir de varios conjuntos de datos. Se trata de clasificar los distintos elementos de un conjunto de datos en varias categorías. Estas agrupan los datos en función de su similitud. Como los conjuntos de datos tienen características comunes, es más fácil predecir su comportamiento.
2. Aplicaciones de los algoritmos de clasificación
2.1. 1.Análisis de sentimiento
2.1.1. Los algoritmos de clasificación se utilizan a menudo en el análisis de sentimiento para clasificar los comentarios y las opiniones de los usuarios en diferentes categorías, como "positivo", "negativo" o "neutral"
2.2. 2. Detección de spam
2.2.1. Los algoritmos de clasificación se utilizan a menudo en la detección de spam en correos electrónicos y mensajes de texto. Estos modelos pueden clasificar los mensajes entrantes en diferentes categorías, como "spam" o "no spam", y asegurarse de que solo los mensajes legítimos lleguen a los destinatarios
2.3. 3. Diagnóstico médico
2.3.1. Los algoritmos de clasificación también se utilizan en la industria médica para el diagnóstico de enfermedades y trastornos. Los modelos pueden clasificar los síntomas y las características de los pacientes en diferentes categorías
2.4. 4. Detección de fraudes
2.4.1. Los algoritmos de clasificación se utilizan a menudo en la detección de fraudes en transacciones financieras y de tarjetas de crédito. Los modelos pueden clasificar las transacciones en diferentes categorías, como "legítimo" o "fraude", y detectar actividades sospechosas que podrían indicar un fraude en curso
2.5. 5. Reconocimiento de voz
2.5.1. Los algoritmos de clasificación se utilizan en la tecnología de reconocimiento de voz para clasificar los sonidos y las palabras habladas en diferentes categorías. Estos modelos son esenciales para la tecnología de asistentes virtuales como Siri y Alexa
3. Evaluación de los modelos de clasificación
3.1. Matriz de confusión
3.1.1. Muestra verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. Permite ver en qué clases el modelo falla
3.2. Accuracy (precisión global)
3.2.1. Proporción de predicciones correctas sobre el total
3.3. Precisión (precisión de la clase positiva)
3.3.1. Porcentaje de instancias clasificadas como positivas que realmente lo son
3.4. Recall (sensibilidad o exhaustividad)
3.4.1. Porcentaje de casos positivos reales que el modelo identifica correctamente
4. Clasificación supervisada
4.1. El algoritmo de clasificación es uno de los métodos de aprendizaje supervisado. Es decir, las predicciones se realizan a partir de datos históricos. Esto contrasta con el aprendizaje no supervisado, en el que no hay clases predefinidas. Por tanto, las categorías deben formarse a partir de atributos comunes
5. ¿Cuáles son los principales modelos de clasificación?
5.1. 1. La máquina de vectores de soporte (SVM)
5.1.1. Algoritmo se considera un clasificador lineal. Su función es separar conjuntos de datos a lo largo de líneas (denominadas hiperplanos)
5.2. 2. Árboles de decisión
5.2.1. Algoritmo que clasifica diferentes datos en forma de ramas. Parte de una raíz en la que cada dato toma una dirección determinada en función de su comportamiento. Lo que permite predecir las variables de respuesta. Como en los árboles, las intersecciones se denominan nodos y sus extremos, hojas
5.3. 3. Clasificación K-means
5.3.1. Algoritmo de clasificación ordena los datos en diferentes grupos en función de sus características. ventaja del algoritmo K-means es su precisión
5.4. 4. Clasificador bayesiano ingenuo
5.4.1. Algoritmo utiliza el teorema de Bayes y las probabilidades condicionales
5.5. 5. KNN (vecinos más cercanos)
5.5.1. K-nearest neighbours (o algoritmo de vecinos más cercanos) puede utilizarse tanto como algoritmo de regresión como de clasificación
5.6. 6. Regresión Logística
5.6.1. Es un modelo de clasificación de probabilidad que utiliza una función logística para predecir la categoría de una variable, limitando la salida entre 0 y 1.
5.7. 7. AdaBoost (Adaptive Boosting)
5.7.1. Es una técnica que combina múltiples algoritmos de regresión débiles para crear un modelo más fuerte y preciso, reduciendo errores.