MINERÍA DE DATOS

Resumen de Minería de Datos

Comienza Ya. Es Gratis
ó regístrate con tu dirección de correo electrónico
Rocket clouds
MINERÍA DE DATOS por Mind Map: MINERÍA DE DATOS

1. MODELOS

1.1. PREDICTIVO

1.1.1. Analiza Datos del Pasado

1.1.1.1. Determina Probabilidad de Ocurrencia

1.1.1.2. Se aplica en casos de un resultado / objetivo específico

1.1.2. Acciones para el Análisis

1.1.2.1. Recolección de Información

1.1.2.1.1. Fuentes Externas

1.1.2.1.2. Fuentes Internas

1.1.2.2. Aplicación de técnicas analíticas

1.1.2.2.1. Detección de Patrones

1.1.2.2.2. Evaluación de Probabilidades de Ocurrencia

1.1.2.2.3. Detección de Comportamientos

1.1.3. Importancia

1.1.3.1. Optimizan la toma de Decisiones y Minimiza Riesgos

1.1.3.2. Mejora el Conocimiento y la Capacidad de predicción

1.1.3.3. Aumenta la Capacidad en los Procesos

1.1.3.4. Reduce Costos

1.1.3.5. Potencia la Competitividad

1.1.4. Riesgos

1.1.4.1. Los datos históricos no reflejan directamente un resultado futuro

1.1.4.2. Pueden ignorarse variables desconocidas o inalcanzables

1.1.4.3. Pueden ser fácilmente manipulados

1.2. DESCRIPTIVO

1.2.1. Se basa en dos modelos de datos

1.2.1.1. Históricos

1.2.1.1.1. Los que se Almacenan

1.2.1.2. Actuales

1.2.1.2.1. Son los que se producen día con día

1.2.2. Características

1.2.2.1. Es un metodo cualitativo

1.2.2.2. Se determinan relaciones y tendencias

1.2.2.3. Se Identifican las acciones que se deben tomar

1.2.2.4. Evalúa Características en particular de una

1.2.2.4.1. Población

1.2.2.4.2. Situación

1.2.2.5. Permite obtener datos sobre el objeto de estudio

1.2.2.6. No admite Generalizaciones ni Proyecciones

1.2.3. Técnicas

1.2.3.1. Entrevista

1.2.3.2. Encuesta

1.2.3.3. Documentación

1.2.3.4. Observación

1.2.4. Etapas

1.2.4.1. Identificación y Delimitación del Problema

1.2.4.2. Elaboración y Construcción

1.2.4.3. Observación y Registro

1.2.4.4. Decodificación y Categorización

1.2.4.5. Análisis

1.2.4.6. Propuesta

2. TÉCNICAS

2.1. Técnica: Regresión lineal

2.2. Técnica: Redes Neuronales

2.3. Técnica: Árboles de decisión

2.4. Técnica: Modelos estadísticos

2.5. Técnica: Clustering

2.6. Técnica: Algoritmos genéticos

3. METODOLOGÍAS

3.1. SEMMA

3.1.1. Consta de 5 Fases de Proceso

3.1.1.1. Muestreo

3.1.1.2. Ecploración

3.1.1.3. Manipulación

3.1.1.4. Modelado

3.1.1.5. Valoración

3.1.2. Se basa en la técnica de muestreo Aleatorio Simple

3.1.3. Establece que a cada muestra de debe asociar el nivel de confianza

3.1.4. Busca simplificar en lo posible el problema y optimizar la eficiencia del modelo de estudio

3.1.4.1. Propone el uso de

3.1.4.1.1. Herramientas de Visualización

3.1.4.1.2. Técnicas Estadísticas para evidenciar la relación de variables

3.1.4.1.3. Pretende determinar las variables explicativas

3.2. KDD

3.2.1. Proceso Metodologico y Secuencial

3.2.2. Encuentra Conocimiento en un conjunto de datos brutos

3.2.3. Se Divide en 9 Pasos

3.2.3.1. Abstracción del Escenario

3.2.3.2. Selección de Datos

3.2.3.3. Limpieza y Procesamiento

3.2.3.4. Transformación de los datos

3.2.3.5. Elección de tareas de Minería de Datos

3.2.3.6. Elección del Algoritmo

3.2.3.7. Aplicación del Algoritmo

3.2.3.8. Evaluación e Interpretación

3.2.3.9. Entendimiento del Conocimiento

3.3. CRISP-DM

3.3.1. Consta de Cuatro Niveles de Abstracción

3.3.1.1. Fases

3.3.1.2. Tareas Generales

3.3.1.3. Tareas Específicas

3.3.1.4. Instancias de Proceso

3.3.2. Proporciona Dos documentos de ayuda para Data Mining

3.3.2.1. Modelo de Referencias

3.3.2.1.1. Describe de Forma General

3.3.2.2. Guia de Usuario

3.3.2.2.1. Proporciona

4. HERRAMIENTAS

4.1. SAS

4.1.1. Qué es?

4.1.1.1. "Statistical Analysis System" es un paquete de software estadístico desarrollado por SAS Institute para gestión de datos, análisis avanzado, análisis multivariado, inteligencia de negocios, investigación criminal y análisis predictivo. Cuanta con dos software principales: SAS Enterprise Miner y SAS Facotry Miner

4.1.2. Características:

4.1.2.1. SAS Enterprise Miner

4.1.2.1.1. Con SAS Enterprise Miner, usted puede: • Crear series de datos de capacitación y prueba de muestra con un alto valor predictivo. • Explorar interactivamente las relaciones y anomalías de los datos. • Crear, transformar y seleccionar las variables más adecuadas para el análisis. • Aplicar un rango de técnicas de modelado para identificar los patrones en los datos. • Validar la utilidad y confiabilidad de los hallazgos del proceso de minería de datos. • Crear todos los activos necesarios para la implementación, monitoreo y gestión de los modelos.

4.1.2.2. SAS Facotry Miner

4.1.2.2.1. Con SAS Facotry Miner, usted puede: • Potenciar la productividad del descubrimiento. • Automatizar el desarrollo de modelos. • Explorar nuevas ideas más rápidamente. • Colaborar con sus colegas analíticos en su organización. • Ampliar su reserva de talento analítico a través del machine-learning de autoservicio automático. • Poner grandes portafolios de modelos predictivos en producción de forma más eficiente y gestionarlos con facilidad.

4.2. RAPIDMINDER

4.2.1. Qué es?

4.2.1.1. Es un programa informático para el análisis y minería de datos. Permite el desarrollo de procesos de análisis de datos mediante el encadenamiento de operadores a través de un entorno gráfico. Se usa en investigación, educación, capacitación, creación rápida de prototipos y en aplicaciones empresariales.

4.2.2. Características:

4.3. * Desarrollado en Java. * Multiplataforma. * Representación interna de los procesos de análisis de datos en ficheros XML. * Permite el desarrollo de programas a través de un lenguaje de script. * Puede usarse de diversas maneras: - A través de un GUI. - En línea de comandos. - En batch (lotes). - Desde otros programas a través de llamadas a sus bibliotecas. * Extensible. * Incluye gráficos y herramientas de visualización de datos. * Dispone de módulos de integración con R y Python.

4.4. KNIME

4.4.1. Qué es?

4.4.1.1. es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse.Está concebido como una herramienta gráfica y dispone de una serie de nodos (que encapsulan distintos tipos de algoritmos) y flechas (que representan flujos de datos) que se despliegan y combinan de manera gráfica e interactiva.

4.4.2. Características:

4.4.2.1. Los nodos implementan distintos tipos de acciones que pueden ejecutarse sobre una tabla de datos: * Manipulación de filas, columnas, etc., como muestreos, transformaciones, agrupaciones, etc. * Visualización (histogramas, etc.). * Creación de modelos estadísticos y de minería de datos, como árboles de decisión, máquinas de vector soporte, regresiones, etc. * Validación de modelos, como curvas ROC, etc. * Scoring o aplicación de dichos modelos sobre conjuntosa nuevos de datos. * Creación de informes a medida gracias a su integración con BIRT.

4.5. NEURAL DESIGNER

4.5.1. Qué es?

4.5.1.1. es un programa informático de minería de datos basado en la técnica de las redes neuronales.​Ha sido desarrollado a partir de la librería de código abierto OpenNN​ y contiene una interfaz gráfica de usuario, que simplifica la entrada de datos y la interpretación de resultados.​

4.5.2. Características

4.5.2.1. *Algoritmos avanzados Puede usar redes neuronales para descubrir relaciones complejas, reconocer patrones desconocidos, predecir tendencias reales o reconocer asociaciones a partir de datos. *Fácil de usar La interfaz de usuario lo guía a través de una secuencia de pasos para operar el software de manera intuitiva. También le ayuda a visualizar y comprender los resultados a través de muchas tablas y gráficos. *Alto rendimiento Neural Designer administra los datos de manera muy eficiente, de modo que su computadora no limita ningún proyecto. También utiliza la paralelización de la CPU y la aceleración de la GPU para reducir el tiempo de análisis.

4.6. ORANGE

4.6.1. Qué es?

4.6.1.1. Es un programa informático para realizar minería de datos y análisis predictivo desarrollado en la facultad de informática de la Universidad de Ljubljana. Consta de una serie de componentes desarrollados en C++ que implementan algoritmos de minería de datos, así como operaciones de preprocesamiento y representación gráfica de datos.

4.7. Características

4.7.1. •Permite crear tus propios flujos de trabajo interactivos con el fin de analizar y visualizar los datos con mayor amplitud. De esta forma, rediseñar y adaptar la herramienta a las necesidades de la empresa. •Permite visualizar la información en distintos formatos, desde diagramas de dispersión, gráficos de barras, árboles o redes y mapas de calor. Esta funcionalidad, permite que en función de los resultados se escoja un tipo de visualización u otra para mostrar con mayor claridad los resultados e interpretar mejor la información. •Dispone de más de 100 widgets para personalizar la herramienta, con estos widgets cubre las tareas de análisis estándar y presenta variabilidades especializadas, para sectores relacionados con bioinformática.

4.8. SPSS

4.8.1. Qué es?

4.8.1.1. es una aplicación de software de análisis de texto y minería de datos de IBM. Se utiliza para construir modelos predictivos y realizar otras tareas analíticas. Tiene una interfaz visual que permite a los usuarios aprovechar los algoritmos estadísticos y de minería de datos sin programación. Uno de sus principales objetivos desde el principio fue deshacerse de la complejidad innecesaria en las transformaciones de datos y hacer que los modelos predictivos complejos sean muy fáciles de usar. La primera versión incorporaba árboles de decisión (ID3) y redes neuronales (backprop), que podían entrenarse sin el conocimiento subyacente de cómo funcionaban esas técnicas.

4.8.2. Características

4.8.2.1. IBM SPSS Modeler te ayuda a: * Aprovechar la innovación basada en código abierto, incluido R o Python. * Empoderar a los científicos de datos de todas las habilidades: programáticas y visuales. * Explore un enfoque híbrido: en las instalaciones y en la nube pública o privada. * Comience con poco y escale a un enfoque gobernado de toda la empresa.

4.8.2.1.1. •Soporte para Windows, OLE (cliente y servidor), DDE, barra de herramientas AutoTask, menús desplegables. •Datos múltiples, resultados, gráficos y vínculos entre ellos •Amplia selección de procedimientos estadísticos y gráficos. •Manual on-line con una introducción fácil a cada procedimiento y ejemplos. •Interprete de los resultados que facilita su comprension y análisis. •Carpeta de trabajo con múltiples documentos AutoOpen. •Lenguaje de comandos por lotes y de macros, "turn-key" flexible y automatización de funciones. •Administra ficheros de hasta 32.000 variables por registro. •Ilimitado tamaño de ficheros, precisión extendida y alta velocidad •Intercambio de datos y gráficos con otras aplicaciones vía DDe, OLE o una amplia selección de tipos de ficheros para importar y exportar. •Rotación interactiva, perspectiva y cruce de secciones para visualizaciones en 3D.

4.9. STATISTICA

4.9.1. Qué es?

4.9.1.1. Es un conjunto de productos y soluciones de software de análisis desarrollado originalmente por StatSoft y adquirido por Dell en marzo de 2014. El software incluye una variedad de análisis de datos, gestión de datos, visualización de datos y procedimientos de minería de datos; así como una variedad de técnicas predictivas de modelado, agrupamiento, clasificación y exploración. Hay técnicas adicionales disponibles a través de la integración con el entorno de programación R gratuito y de código abierto. Existen diferentes paquetes de técnicas analíticas en seis líneas de productos.

4.9.2. Características

4.10. WEKA

4.10.1. Qué es?

4.10.1.1. Waikato Environment for Knowledge Analysis, en español «entorno para análisis del conocimiento de la Universidad de Waikato» es una plataforma de software para el aprendizaje automático y la minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNU-GPL.

4.10.2. Características

4.10.2.1. Las ventajas de Weka incluyen: • Disponibilidad gratuita bajo la Licencia Pública General de GNU. • Portabilidad, ya que está completamente implementado en el lenguaje de programación Java y, por lo tanto, se ejecuta en casi cualquier plataforma informática moderna. • Una colección completa de preprocesamiento de datos y técnicas de modelado. • Facilidad de uso debido a sus interfaces gráficas de usuario.

5. DISCIPLINAS

5.1. ESTADÍSTICA

5.2. INTELIGENICA ARTIFICIAL

5.3. MACHINE LEARNING

5.4. VISUALIZACION

5.5. BASE DE DATOS

6. DESCUBRIMIENTO DE CONOCIMIENTO

6.1. VÁLIDO

6.2. NOVEDOSO

6.3. POTENCIALMENTE ÚTIL

6.4. COMPRENSIBLE

7. INDUSTRIA

7.1. MARKETING DIRECTO

7.2. SALUD

7.3. COMERCIO ELECTRÓNICO

7.4. RELACIÓN DE CLIENTES

7.5. BIENES DE CONSUMO

7.6. TELECOMUNICACIONES

7.7. SECTOR FINANCIERO