1. Lenguaje de Programación Utilizados en Data Science
1.1. Más Usados
1.1.1. Python
1.1.1.1. Used: Data Science AI ML Web development Internet of Thing (IoT) (Raspberry Pi)
1.1.1.1.1. Scientific computer: Pandas, NumPy, SciPy, Matplotlib
1.1.1.1.2. IA: PyTorch TensorFlow Keras Scikit-learn
1.1.1.1.3. Puede ser usado por su lenguaje natural: Natural lenguaje Processing (NLP) usando el Natural Lenguage Toolkit (NLTK)
1.1.2. R
1.1.2.1. Free Software El mayor repositorio de conocimiento estadístico.
1.1.3. SQL
1.1.3.1. Structure query Lenguage Utilizado para manejar datos estructurados, relacionando variables y entidades.
1.1.3.1.1. DB2 Firebird HSQL Informix InterBase MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL PervasiveSQL SQLite Sybase ASE
1.2. Otros
1.2.1. Java
1.2.1.1. Orientado a objetos Diseñado para ser rápido y escalable Java app se compilan con bytecode y corren en JVM
1.2.1.1.1. Weka (data mining) Java-ML (ml library) Apache MLlib (scalable ml) Deeplearning4j HADOOP big data
1.2.2. Scala
1.2.2.1. Programas Funcionales Extensión de Java, tb corre JVM Scalable Lenguage
1.2.2.1.1. Para DC: Spark - motor analitico para procesar big data, sql , ML, gráficos... - Shark, Mlib, GraphX, Spark Streaming
1.2.3. C++
1.2.3.1. extensión de C Velocidad de procesamiento de datos Muchas empresas lo usan para app en tiempo real
1.2.3.1.1. Para DC: TensorFlow es una librería para Deep Learning MongoDB es una NoSQL base de datos para gestionar big data Caffe es una algoritmo para deep learning
1.2.4. JavaScript
1.2.4.1. Tecnología para web, su proposito general es extender las capacidades de un navegador con Node.js para otros objetivos.
1.2.4.1.1. Para DC: TensorFlow.js para ML y DL con Node.js Brain.js - machinelear.js R-js algebra lineal Typescript
1.2.5. Julia
1.2.5.1. Diseñado por MIT para análisis numérico y ciencia computacional Rápido desarrollo como python o R, llegando a producir programas tan rápidos como C. Compilado con llamadas a C, Go, Java, MATLAB, R; Fortran, Python librerías Lenguaje joven
1.2.5.1.1. Para DC: JuliaDB
2. Instalación: Anaconda Navigator pip para instalar paquetes
3. Conceptos Básicos
3.1. funciones
3.1.1. def f1 (input)
3.1.2. sort ( ) Ordena una lista de forma ascendente
3.2. Expresiones Matemáticas * math: para constantes matematicas
3.2.1. suma +
3.2.2. resta -
3.2.3. multiplicación *
3.2.4. dividir /
3.2.5. obtener parte entera //
3.2.6. Obtener restante de división %
3.2.7. Potencia **
3.2.8. raíz cuadrada sqtr( )
3.3. Types
3.3.1. int = número entero
3.3.2. float = numero decimal
3.3.3. str = string
3.3.4. Boolean -> True (1) - False (0)
3.4. Variable
3.4.1. x = 'valor o características la variable'
3.5. Expresiones
3.5.1. len( ) devuelve el largo de un string, lista, etc
3.5.2. n\ salta linea
3.5.3. t\ tabula
3.5.4. \\ incluye una backslash
3.5.5. silide
3.5.6. r al principio me devuelve tal cual la cadena
3.5.7. stride ( : : 2)
3.5.8. x.upper( )
3.5.9. x.replace ('lo que busca','por lo que cambio'
3.6. Tuplas ( )
3.7. List [ ]
3.7.1. L.extend( ) agrega elementos al final
3.7.2. L.append() agrega 1 nuevo elemento que puede contener más elementos
3.7.3. del(L[0]) borra el primer elemento
3.7.4. L.split( )
3.7.5. A = B[:] Clona la lista
3.8. Diccionarios DICT { keys : values }
3.8.1. del(DICT['x'])
3.8.2. DICT.values()
3.8.3. DICT.keys()
3.8.4. in DICT['x'] retorna true si existe
3.8.5. del(release_year_dict['Thriller'])
3.9. Set { }
3.9.1. union
3.9.2. &
3.9.3. add
3.9.4. remove
3.9.5. issubset ( )
3.9.6. in
3.9.7. difference
3.9.8. intersection
3.10. Conditions an branching
3.10.1. ==
3.10.2. !=
3.10.3. <=
3.10.4. >=
3.10.5. <
3.10.6. >
3.10.7. if
3.10.8. elif
3.10.9. else
3.10.10. or
3.10.11. and
3.10.12. loop
3.10.12.1. for
3.10.12.2. while
3.11. range (N)
3.12. Objetos y clases
3.12.1. Objetos
3.13. Read File
3.13.1. file1 = open(example1, "r")
3.14. Writing Files
3.14.1. file1 = open(example1, "w")
4. IDE: IPython / Jupyter Integrated Development Environment
4.1. es una aplicación informática que proporciona servicios integrales para facilitarle al desarrollador o programador el desarrollo de software. * Jupyter Notebook: * Sublime Text: install package - emmet: html:5 - SideBarEnhancements: Opciones de carpeta en la barra izquierda - BracketHighlighter: Resalta llaves { } - Python Pep 8: ayuda a compilación
5. Big Data Coursera
5.1. The V's of Big Data: * Velocidad: * Volumen: * Variedad: * Veracidad: * Valor:
5.1.1. Machine Learning: Es una conjunto de IA que usa un algoritmo para analizar data y tomar decisiones inteligentes basado en lo que aprende, sin una programación explicita. Deep Learning is a type of Machine Learning that simulates human decision-making using neural networks.
5.1.1.1. * Entrena con grandes conjuntos de datos. * No sigue reglas basadas en algoritmos. * Aprende de ejemlos.
5.1.1.2. Deep Learning: Es un subconjunto de ML que usa redes neuronales para simular decisiones humanas
5.1.1.2.1. Neural Networks: Toman inspiración de una neurona biologica, pero funcionan un tanto diferente. Aprende a medida que aumentan los datos.
5.1.1.2.2. Utilizada en: * Reconocimiento facial o personas hablando. * Hay grandes librerías que pueden ayudatrte a desarrollar deep learing pero debes conocer lo que se desarrolla internamente. Álgebra.
5.1.1.2.3. Metodologías: Regresión lineal Regresión logística Árboles de decisión Random Forest XGBoost Gradient Boosting Isolation Forest Redes neuronales Support Vector Machines K-Means
5.2. Tools: * Apache SparK * Hadoop
5.2.1. Hadoop: * Big data clousters * Podemos tomar bases de datos enormes para buscar patrones. * Machine Learning - decisions science
6. Data Analysis IBM: * Todo tiene datos. * Nos ayuda a encontrar respuestas desde nuestros datos.
6.1. Librerías
6.1.1. Informática científica
6.1.1.1. Pandas: Data Stuctures (Data Frame) & tools
6.1.1.1.1. Import Data: 2 importantes propiedades: * Format: csv, json, xlsx,hdf * File Path of dataset: - Computer: /Desktop/mydata.csv - Internet: https://archive.ics.uci....
6.1.1.2. SciPy: Integrales, resolver ecuaciones diferencias, Oprimización
6.1.1.3. Numpy: Vectores y Matrices
6.1.2. Visualización: Utilizadas para mostrar nuestro análisis
6.1.2.1. Matplotlib: Plots & gráficos, más popular
6.1.2.2. Seaborn: plots: heat maps, time series, violin plots
6.1.2.3. Ggplots2 utilizada en R
6.1.3. Algorítmica: Crear modelos predictivos
6.1.3.1. Scikit-learn: Machine Learning : regressión, classification...)
6.1.3.1.1. Machine Learning: supervisados no supervisados reinforcement
6.1.3.1.2. Deep Leaning: Trata de emular el funcionamiento del cerebro humano
6.1.3.2. Statsmodels: Explote data, estimate statistical models, and performs statistical test
6.2. IA
6.2.1. PyTorch
6.2.2. TensorFlow
6.2.3. Keras
6.2.4. Scikit-learn
6.3. API
6.3.1. Your Program----- API----input -data- output Other Software Component
6.4. Data Set
6.4.1. Collection of data Data Structurada Ejemplo Csv
6.4.1.1. Private Data: Confidencial Provada o información personal Sensiblemente Comercial
6.4.1.2. Public Data: instituciones científicas gobierno organizaciones compañías
6.4.1.2.1. Open Souce: datacatalogs data.un.org data.gov europeandataportal Kaggle google data serch
7. Data Science & IA
7.1. DS es el proceso y métodos para extraer conocimiento e ideas a partir de grandes volúmenes de datos.
7.2. Involucra, matemáticas, estadística, visualización, ML y más.
7.3. puede ser ML, algoritmos, deep learning models, etc.
7.4. Es un término amplio que involucra todo el proceso y metodologías.
7.5. IA involucra todo lo relacionado a la maquinas para aprender cómo resolver problemas tomando decisiones inteligentes.
7.6. AMBOS IA & DATA SCIENCE PUEDEN UTILIZAR BIG DATA
7.7. ¿cómo comienzan las empresas?: Las empresas necesitan conocer sobre sus clientes y sobre sus ventas, etc. Los datos siempre son relevantes con el tiempo. Algo que no es posible medir es difícil de probar y mejorar. El propósito de un proyecto de DS es comunicar nueva información e ideas a partir del análisis de datos para la toma de decisiones.
8. Django:
8.1. Conceptos Django
8.1.1. pip install Django
8.1.2. Entorno de Trabajo
8.1.2.1. Local
8.1.2.1.1. 1. Una única versión de Django
8.1.2.1.2. 2. Una única versión de Python
8.1.2.1.3. 3. Mismas dependencias para todos los proyectos
8.1.2.2. Virtual
8.1.2.2.1. 1. Varias versiones de Django
8.1.2.2.2. 2. Varias versiones de Python
8.1.2.2.3. 3. Diferentes dependencias para todos los proyectos.
8.1.2.2.4. 4. Igualar entornos de Desarrollo - Pruebas - Produccion
8.1.3. Comandos Importantes
8.1.3.1. django-admin startproject 'nombreProyecto' Para comenzar un proyecto
8.1.3.2. python manage.py help
8.1.3.3. python manage.py migrate
8.1.3.4. python manage.py runserver
8.1.4. Archivos Django
8.1.4.1. manage.py
8.1.4.2. __init__.py
8.1.4.3. asgi.py
8.1.4.4. settings.py
8.1.4.5. urls.py
8.1.4.6. wsgi.py
8.2. Modelo Vista Controlador MVC
8.2.1. Vista
8.2.1.1. Muestra la información al Usuario
8.2.2. Controlador
8.2.2.1. Gestiona las comunicaciones entre la vista y el modelo. (Ej. mysql)
8.2.3. Modelo
8.2.3.1. Se encarga de gestionar los datos: - Obtener info de una base de datos
8.3. Django: Modelo Template Vista MTV
8.3.1. Template (vista)
8.3.2. View ( como Controlador)
8.3.3. Model (como Modelo)
8.4. Comenzar
8.4.1. views.py
8.4.2. urls.py
8.4.3. Plantillas
8.4.3.1. Cadenas de texto
8.4.3.2. Sirven para separar la parte lógica (datos) de la parte visual (presentación) de un documento web
8.4.3.3. Se utilizan de diversas formas, siendo la más habitual: guardar la cadena de texto en un documento independiente y cargado este desde la vista
8.4.3.4. ¿Cómo de usan?
8.4.3.4.1. 1. Creación de objeto de tipo Template: plt=Template(doc_externo.read())
8.4.3.4.2. 2. Creación de Contexto ctx=Context()
8.4.3.4.3. 3. Renderizado de objeto Template: documento=plt.render(ctx)
8.4.3.5. Jerarquía u Orden de llamadas desde plantillas
8.4.3.5.1. 1. DIccionarios
8.4.3.5.2. 2. Atributo
8.4.3.5.3. 3. Método
8.4.3.5.4. 4. Índice de lista
8.4.3.6. Condicionales
8.4.3.7. Filtros
8.4.3.8. Cargadores de Plantilla
8.4.3.8.1. import loader
8.4.3.8.2. En Setting DIR poner la dirección de las plantillas
8.4.3.9. Shortcut
8.4.3.9.1. import django.shortcut import render
8.4.3.10. Plantillas Incrustadas
8.4.3.10.1. {% include "superior/barra.html" %}
8.4.3.11. Herencia de Plantilla
8.4.4. BBDD
8.4.4.1. Proyecto vs Aplicación
8.4.4.2. Clase Model
8.4.4.2.1. python manage.py startapp
8.4.4.3. Asignar tablas a sqlite.
8.4.4.3.1. 1. Genrar codigo sql python manage.py sqlmigrate gestionPedidos
8.4.4.3.2. 2. python manage.py sqlmigrate gestionPedidos 0001
8.4.4.3.3. 3. python manage.py migrate
8.4.4.4. Agregar, modificar o eliminar datos
8.4.4.4.1. python manage.py shell
9. Data Science Tools
9.1. Herramientas de Data Science: Fully Integrated visual tools Execution environments Data Asset Management Data Managment Data Ingretacion and Transformation Data Visualization Model Bulding Model Deployment Model Monitoring and Assessment Code Asset Management Development Enviroments (IDE)
9.1.1. Data Management
9.1.1.1. * MySQL and PostgreSQL no SQL databases such as MongoDB apache couchdb and apache cassandra and file based tools such as the Hadoop file system or cloud file systems like SEF Oracle Database Microsoft SQL server IBM DB2
9.1.2. Data Ingegration and Transformation
9.1.2.1. Apache airflow originally created by Airbnb cube flow which enables you to execute data science pipelines on top of kubernetes Apache Kafka which originated from LinkedIn Apache NiFi I which delivers a very nice visual editor Apache sparks SQL which enables you to use ANSI SQL and scales up to compute clusters of thousands of nodes and node read which also provides a visual editor node read consumes so little in resources that it even runs on small devices like a Raspberry Pi will now ETL Informatica IBM Infoshere DataStage Talend IBM Watson Studio Desktop
9.1.3. Data Visualization
9.1.3.1. Hue kibana Superset Tableau Power BI IBM Cognos Analytics IBM Watson Studio Desktop
9.1.4. Model Building
9.1.4.1. SPSS Modeler SAS IBM Watson Studio Desktop
9.1.5. Model Deployment
9.1.5.1. PredictionIO Seldon ( mleap TensorFLow Service TensorFlow Lite
9.1.6. Model Monitoring and Assessment
9.1.6.1. ModelDB un sistema para gestionar ML modelos Prometheus IBM Research Trusted AI Adversarial Robustness 360 Toolbox AI Explainability 360
9.1.7. Code Asset Management
9.1.7.1. Github git Gitlab Bitbucket Binstalks
9.1.7.1.1. GitHub: Ofrece un control de versión. Tutoriales try.github.io
9.1.7.1.2. Comandos Básicos
9.1.8. Data Asset Management
9.1.8.1. APache Atlas Egeria (open) Kylo Informatica IBM InfoSphere
9.1.9. Development Enviroments
9.1.9.1. Jupyter Notebook Jupyter lab (más moderno ) Apache Zeppelin R Studio Spyder (Python)
9.1.9.1.1. Jupyter Notebook
9.1.10. Execution environments
9.1.10.1. Apache Spark Apache Flink (enfocado en real time) Rieselab Ray (deep Model)
9.1.11. Fully Integrated visual tools * D ingr and transf * D Visualization * Model Buildin
9.1.11.1. Knime (R, python, apache) Orange (fácil de usar)
9.1.12. Cloud Based Tools for data Science
9.1.12.1. IBM WS Azure H2O.ai
9.1.12.1.1. Watson Studio
9.1.12.2. Data Managment: Amazon DynamoDB NoSqL DB Cloudant CouchDB relax IBM db2
9.1.12.3. Data Ingration and Trans: Informatica IBM Refinery
9.1.12.4. Data Visualization: Datameer IBM Cognos Analytics (WS)
9.1.12.5. Model Building: IBM W ML Google Cloud
9.1.12.6. Model Deployment IBM SPSS MODELER
9.1.12.7. Model Monitoring and assessment: aws Amazon SageMaker Model Monitor Watson OpenSacale
10. Data Science Methodology
10.1. CRISP-DM: Consta de 7 Pasos
10.1.1. 1. Business Understanding
10.1.2. 1.1 Analytic Approach
10.1.3. 1.2 Data Requirements
10.1.4. 1.3 Data Collection
10.1.5. 2. Data Understanding
10.1.5.1. Estadísticos Descritivos: Histogramas, etc
10.1.5.2. Data quiality
10.1.5.2.1. Missing Values
10.1.5.2.2. Invalid
10.1.5.2.3. Misleading Values
10.1.6. 3. Data Preparation
10.1.6.1. Cleansing data: Uno de los que más demanda tiempo
10.1.7. 4. Modeling
10.1.7.1. Predictive Model
10.1.7.2. Descriptive
10.1.7.3. Cost Study Roc curve
10.1.7.3.1. Training data set
10.1.7.3.2. Test data set
10.1.8. 5. Evaluation
10.1.9. 6. Deployment
10.1.10. 7. Feedback
10.2. Decision Three
11. Librerías para Data Science
11.1. Pandas
11.1.1. Importar Data
11.1.1.1. import pandas as pd
11.1.1.2. df = pd.read_csv ('data.csv' ) df = pd.to_csv('nerdata.csv')
11.1.1.2.1. Mostrar Nombre de Columnas list(df.columns)
11.1.2. Exploración de Datos
11.1.2.1. Tipos de Datos
11.1.2.2. df.head() df.tail()
11.1.2.3. df.types
11.1.2.4. df.describe()
11.1.2.5. df.info()
11.1.2.6. df['columna'].value_counts()
11.1.2.7. Select where df3 = df2.loc[df2["unemployment"] > 8.5]
11.1.2.8. df.loc[label] #filters by the labels of the index/column
11.1.2.9. df.iloc[index] #filters by the positions of the index/column
11.1.3. Preprocesamiento de Datos
11.1.3.1. Acceder a una Columan
11.1.3.1.1. df['nombrecolumna']
11.1.3.2. Datos Perdidos
11.1.3.2.1. Eliminar datos perididos
11.1.3.2.2. Reemplazar por un promedio
11.1.3.2.3. Reemplazar por frecuencia
11.1.3.2.4. Reemplazar basado en otras funciones
11.1.3.2.5. Mantener los datos perdidos
11.1.3.3. Resetear index
11.1.3.3.1. df.reset_index(drop=True, inplace=True)
11.1.3.4. Formatos de Datos
11.1.3.4.1. 1. df['horas] = 60*df['horas'] 2. df.rename(columns={"horas":"minutos"}, inplace = True)
11.1.3.4.2. Type de dato incorrecto astype permite dar nuevo formato
11.1.3.5. Normalización de Variable
11.1.3.5.1. Escalada simple
11.1.3.5.2. Min-Max
11.1.3.5.3. Z-score
11.1.3.6. Binning = Categorización
11.1.3.6.1. 1. bins = np.linspace(min(df['price´], max(df['price']), 4) 2. group_names = ["low", "medium", "High"] 3. df["price-binned"] = pd.cut(df["price"], bins, labels=group_names, include_lowest = True )
11.1.3.6.2. One-hot encoding Convertir valores String a int
11.1.4. Análisis de Datos
11.1.4.1. Estadísticos Descriptivos
11.1.4.1.1. df.describe()
11.1.4.1.2. Box plot
11.1.4.1.3. Scatter Plot
11.1.4.2. GroupBy
11.1.4.2.1. 1. df['drive-wheels'].unique()
11.1.4.2.2. df_group_one = df_group_one.groupby(['drive-wheels'],as_index=False).mean()
11.1.4.2.3. grouped_pivot = grouped_test1.pivot(index='drive-wheels',columns='body-style')
11.1.4.2.4. Puedo Crear un mapa de Calor
11.1.4.3. Correlación
11.1.4.3.1. Correlación Estadística
11.1.4.3.2. Correlación NO IMPLICA Causa
11.1.4.4. Análisis de Varianza (ANOVA)
11.1.4.4.1. # ANOVA f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'], grouped_test2.get_group('4wd')['price']) print( "ANOVA results: F=", f_val, ", P =", p_val)
11.1.4.5. Desarrollo de Modelo
11.1.4.5.1. Regresión simple
11.1.4.5.2. Regresión Multiple
11.1.4.5.3. Regresión Polinomial
11.1.4.5.4. Eficiencia de Modelo
11.1.4.6. Evaluación de Modelo
11.1.4.6.1. Data Train
11.1.4.6.2. Data Test
11.1.4.6.3. Sobreajuste
11.1.4.6.4. Subajuste
11.1.4.6.5. Ridge Regression
11.1.5. Select where df3 = df2.loc[df2["unemployment"] > 8.5]
11.2. Visualización de Datos
11.2.1. Matplotlib
11.2.1.1. Creada por John Hunter (1968 - 2012)
11.2.1.2. Gráficos
11.2.1.2.1. Mapas
11.3. Machine Learning
11.3.1. Scikit-learn
11.3.1.1. Supervised
11.3.1.1.1. Classification: Classifies labeled data
11.3.1.1.2. Regression: predicts trends using previous labeled data
11.3.1.2. Unsupervised learning
11.3.1.2.1. Clustering: find patterns and groupings from unlabeled data
11.3.1.3. Métodos
11.3.1.3.1. Simple Linear Regression
11.3.1.3.2. Clasificación
11.3.1.3.3. Árboles de Decisión
11.3.1.3.4. Logistic Regression
11.3.1.3.5. SVM Support Vector Machine
11.3.1.3.6. Clustering
11.3.1.3.7. Recommender Systems
11.4. Numpy
11.4.1. import numpy as np
11.4.2. x = a.np.array(lista)
11.4.3. a.size
11.4.4. a.ndim
11.4.5. a.mean
11.4.6. a.max
11.4.7. np.pi
11.4.8. np.linspace
11.4.9. np.dot
11.4.10. Plotvec2(a,b)
11.4.11. a.T
11.5. Matplotlib
11.6. from scipy import stats
12. SQL DataBases
12.1. Utlizado para Crear y administrar bases de datos. DB = repositorio de datos. hay diferentes formas de DB con diferentes tipos de datos.
12.2. Db2 Warehouse on Cloud
12.2.1. Permite acceder a datos desde una nube. fácil de usar. Escalable. Respaldo de información.
12.3. Comando Basicos
12.3.1. Create
12.3.1.1. DDL data definition lenguare DML data manipulation lenguage
12.3.1.1.1. SELECT * FROM DB1
12.3.1.1.2. WHERE
12.3.1.1.3. COUNT
12.3.1.1.4. DISTINCT
12.3.1.1.5. TOP( ) sql server LIMIT mysql ROWNUM oracle
12.3.1.1.6. INSERT
12.3.1.1.7. UPDATE
12.3.1.1.8. DELETE
12.3.1.1.9. LIKE
12.3.1.1.10. AND
12.3.1.1.11. BETWEEN
12.3.1.1.12. OR
12.3.1.1.13. ORDER BY
12.3.1.1.14. GROUP BY
12.3.1.1.15. HAVING
12.3.1.1.16. AS
12.3.2. insert
12.3.3. SELECT
12.3.3.1. STRING
12.3.3.1.1. LEFT
12.3.3.1.2. RIGHT
12.3.3.1.3. LEN (column)
12.3.3.1.4. CHARINDEX( ' ' , column )
12.3.3.1.5. REPLACE ( 'x' , ' ', ' ' )
12.3.3.1.6. SUBSTRING(string, start, length)
12.3.4. update
12.3.5. delete
12.4. Information Model
12.4.1. Modelo Entidad Relación
12.4.1.1. Entidad
12.4.1.2. Atributo
12.4.1.3. Relación
12.4.1.3.1. Grado = n° de atributos en una relación o columnas
12.4.1.3.2. Cardinalidad = n° de tuplas o filas
12.4.1.3.3. Esquema de relación
12.4.1.4. Llave Primaria
12.4.1.5. Llave Foranea
12.4.1.6. Integridad Semántica int - chart etc.
12.4.1.7. Restricciones Semánticas
12.5. Data Model
12.6. Funciones
12.6.1. SUM ( )
12.6.2. MAX ( )
12.6.3. MIN ( )
12.6.4. AVG ( )
12.6.5. ROUND ( )
12.6.6. LENGTH ( )
12.6.7. UCASE ( )
12.6.8. LCASE ( )
12.6.9. DATE
12.6.9.1. YYYYMMDD
12.6.9.2. Funciones para extraer cierto date
12.6.9.3. CURRENT_DATE
12.6.10. TIME
12.6.10.1. HHMMSS
12.6.10.2. CURRENT_TIME
12.6.11. TIMESTAMP
12.6.11.1. YYYYXXDDHHMMSSZZZZZZ
12.7. SUB - CONSULTAS
12.8. MULTIPLES TABLES
12.8.1. SUB QUERIES
12.8.2. JOIN
12.8.2.1. INNER JOIN
12.8.2.2. OUTER JOIN
12.8.2.2.1. LEFT OUTER JOIN
12.8.2.2.2. RIGHT OUTER JOIN
12.8.2.2.3. FULL OUTER JOIN
13. Access Databases Using PYTHON
13.1. Application or Databases
13.2. SQL API
13.3. Esquema
13.4. Python Librerías para conección
13.4.1. ibm_db
13.4.2. ipython_sql
14. BIG DATA
14.1. Tecnologías Cloud
14.1.1. On premises
14.1.2. Infraestructura como Servicio (IaaS)
14.1.3. Plataforma como Servicio (PaaS)
14.1.4. Software como Servicio (SaaS)
14.2. Spark
14.2.1. Procesamiento Streaming
14.2.1.1. Apache Kafka
14.2.1.2. Apache Flink
14.3. Hadoop
14.3.1. Principal tecnología BD. Su funcionamiento se basa en el concepto de procesamiento distribuido.
14.4. IA
14.5. 5 V
14.5.1. Volumen
14.5.2. Variedad
14.5.3. Velocidad
14.5.4. Veracidad
14.5.5. Valor
14.6. Data Science
14.6.1. Computer Science IT
14.6.2. Math and Statistics
14.6.3. Domains / Business Knowledge
14.7. Top Algoritmos
14.7.1. ¿Qué Tipo de datos vas a analizar
14.7.1.1. 1. Estructurado
14.7.1.1.1. Reducir Dimensionalidad
14.7.1.1.2. Analizar dimensión social
14.7.1.1.3. Predecir algo
14.7.1.1.4. Agrupar / Segmentar
14.7.1.2. 2. No Estructurados
14.7.1.2.1. Texto
14.7.1.2.2. Video / Imagen