1. Conceptos Básicos
1.1. funciones
1.1.1. def f1 (input)
1.1.2. sort ( ) Ordena una lista de forma ascendente
1.2. Expresiones Matemáticas * math: para constantes matematicas
1.2.1. suma +
1.2.2. resta -
1.2.3. multiplicación *
1.2.4. dividir /
1.2.5. obtener parte entera //
1.2.6. Obtener restante de división %
1.2.7. Potencia **
1.2.8. raíz cuadrada sqtr( )
1.3. Types
1.3.1. int = número entero
1.3.2. float = numero decimal
1.3.3. str = string
1.3.4. Boolean -> True (1) - False (0)
1.4. Variable
1.4.1. x = 'valor o características la variable'
1.5. Expresiones
1.5.1. len( ) devuelve el largo de un string, lista, etc
1.5.2. n\ salta linea
1.5.3. t\ tabula
1.5.4. \\ incluye una backslash
1.5.5. silide
1.5.6. r al principio me devuelve tal cual la cadena
1.5.7. stride ( : : 2)
1.5.8. x.upper( )
1.5.9. x.replace ('lo que busca','por lo que cambio'
1.6. Tuplas ( )
1.7. List [ ]
1.7.1. L.extend( ) agrega elementos al final
1.7.2. L.append() agrega 1 nuevo elemento que puede contener más elementos
1.7.3. del(L[0]) borra el primer elemento
1.7.4. L.split( )
1.7.5. A = B[:] Clona la lista
1.8. Diccionarios DICT { keys : values }
1.8.1. del(DICT['x'])
1.8.2. DICT.values()
1.8.3. DICT.keys()
1.8.4. in DICT['x'] retorna true si existe
1.8.5. del(release_year_dict['Thriller'])
1.9. Set { }
1.9.1. union
1.9.2. &
1.9.3. add
1.9.4. remove
1.9.5. issubset ( )
1.9.6. in
1.9.7. difference
1.9.8. intersection
1.10. Conditions an branching
1.10.1. ==
1.10.2. !=
1.10.3. <=
1.10.4. >=
1.10.5. <
1.10.6. >
1.10.7. if
1.10.8. elif
1.10.9. else
1.10.10. or
1.10.11. and
1.10.12. loop
1.10.12.1. for
1.10.12.2. while
1.11. range (N)
1.12. Objetos y clases
1.12.1. Objetos
1.13. Read File
1.13.1. file1 = open(example1, "r")
1.14. Writing Files
1.14.1. file1 = open(example1, "w")
2. IDE: IPython / Jupyter Integrated Development Environment
2.1. es una aplicación informática que proporciona servicios integrales para facilitarle al desarrollador o programador el desarrollo de software. * Jupyter Notebook: * Sublime Text: install package - emmet: html:5 - SideBarEnhancements: Opciones de carpeta en la barra izquierda - BracketHighlighter: Resalta llaves { } - Python Pep 8: ayuda a compilación
3. Big Data Coursera
3.1. The V's of Big Data: * Velocidad: * Volumen: * Variedad: * Veracidad: * Valor:
3.1.1. Machine Learning: Es una conjunto de IA que usa un algoritmo para analizar data y tomar decisiones inteligentes basado en lo que aprende, sin una programación explicita. Deep Learning is a type of Machine Learning that simulates human decision-making using neural networks.
3.1.1.1. * Entrena con grandes conjuntos de datos. * No sigue reglas basadas en algoritmos. * Aprende de ejemlos.
3.1.1.2. Deep Learning: Es un subconjunto de ML que usa redes neuronales para simular decisiones humanas
3.1.1.2.1. Neural Networks: Toman inspiración de una neurona biologica, pero funcionan un tanto diferente. Aprende a medida que aumentan los datos.
3.1.1.2.2. Utilizada en: * Reconocimiento facial o personas hablando. * Hay grandes librerías que pueden ayudatrte a desarrollar deep learing pero debes conocer lo que se desarrolla internamente. Álgebra.
3.1.1.2.3. Metodologías: Regresión lineal Regresión logística Árboles de decisión Random Forest XGBoost Gradient Boosting Isolation Forest Redes neuronales Support Vector Machines K-Means
3.2. Tools: * Apache SparK * Hadoop
3.2.1. Hadoop: * Big data clousters * Podemos tomar bases de datos enormes para buscar patrones. * Machine Learning - decisions science
4. Data Science & IA
4.1. DS es el proceso y métodos para extraer conocimiento e ideas a partir de grandes volúmenes de datos.
4.2. Involucra, matemáticas, estadística, visualización, ML y más.
4.3. puede ser ML, algoritmos, deep learning models, etc.
4.4. Es un término amplio que involucra todo el proceso y metodologías.
4.5. IA involucra todo lo relacionado a la maquinas para aprender cómo resolver problemas tomando decisiones inteligentes.
4.6. AMBOS IA & DATA SCIENCE PUEDEN UTILIZAR BIG DATA
4.7. ¿cómo comienzan las empresas?: Las empresas necesitan conocer sobre sus clientes y sobre sus ventas, etc. Los datos siempre son relevantes con el tiempo. Algo que no es posible medir es difícil de probar y mejorar. El propósito de un proyecto de DS es comunicar nueva información e ideas a partir del análisis de datos para la toma de decisiones.
5. Django:
5.1. Conceptos Django
5.1.1. pip install Django
5.1.2. Entorno de Trabajo
5.1.2.1. Local
5.1.2.1.1. 1. Una única versión de Django
5.1.2.1.2. 2. Una única versión de Python
5.1.2.1.3. 3. Mismas dependencias para todos los proyectos
5.1.2.2. Virtual
5.1.2.2.1. 1. Varias versiones de Django
5.1.2.2.2. 2. Varias versiones de Python
5.1.2.2.3. 3. Diferentes dependencias para todos los proyectos.
5.1.2.2.4. 4. Igualar entornos de Desarrollo - Pruebas - Produccion
5.1.3. Comandos Importantes
5.1.3.1. django-admin startproject 'nombreProyecto' Para comenzar un proyecto
5.1.3.2. python manage.py help
5.1.3.3. python manage.py migrate
5.1.3.4. python manage.py runserver
5.1.4. Archivos Django
5.1.4.1. manage.py
5.1.4.2. __init__.py
5.1.4.3. asgi.py
5.1.4.4. settings.py
5.1.4.5. urls.py
5.1.4.6. wsgi.py
5.2. Modelo Vista Controlador MVC
5.2.1. Vista
5.2.1.1. Muestra la información al Usuario
5.2.2. Controlador
5.2.2.1. Gestiona las comunicaciones entre la vista y el modelo. (Ej. mysql)
5.2.3. Modelo
5.2.3.1. Se encarga de gestionar los datos: - Obtener info de una base de datos
5.3. Django: Modelo Template Vista MTV
5.3.1. Template (vista)
5.3.2. View ( como Controlador)
5.3.3. Model (como Modelo)
5.4. Comenzar
5.4.1. views.py
5.4.2. urls.py
5.4.3. Plantillas
5.4.3.1. Cadenas de texto
5.4.3.2. Sirven para separar la parte lógica (datos) de la parte visual (presentación) de un documento web
5.4.3.3. Se utilizan de diversas formas, siendo la más habitual: guardar la cadena de texto en un documento independiente y cargado este desde la vista
5.4.3.4. ¿Cómo de usan?
5.4.3.4.1. 1. Creación de objeto de tipo Template: plt=Template(doc_externo.read())
5.4.3.4.2. 2. Creación de Contexto ctx=Context()
5.4.3.4.3. 3. Renderizado de objeto Template: documento=plt.render(ctx)
5.4.3.5. Jerarquía u Orden de llamadas desde plantillas
5.4.3.5.1. 1. DIccionarios
5.4.3.5.2. 2. Atributo
5.4.3.5.3. 3. Método
5.4.3.5.4. 4. Índice de lista
5.4.3.6. Condicionales
5.4.3.7. Filtros
5.4.3.8. Cargadores de Plantilla
5.4.3.8.1. import loader
5.4.3.8.2. En Setting DIR poner la dirección de las plantillas
5.4.3.9. Shortcut
5.4.3.9.1. import django.shortcut import render
5.4.3.10. Plantillas Incrustadas
5.4.3.10.1. {% include "superior/barra.html" %}
5.4.3.11. Herencia de Plantilla
5.4.4. BBDD
5.4.4.1. Proyecto vs Aplicación
5.4.4.2. Clase Model
5.4.4.2.1. python manage.py startapp
5.4.4.3. Asignar tablas a sqlite.
5.4.4.3.1. 1. Genrar codigo sql python manage.py sqlmigrate gestionPedidos
5.4.4.3.2. 2. python manage.py sqlmigrate gestionPedidos 0001
5.4.4.3.3. 3. python manage.py migrate
5.4.4.4. Agregar, modificar o eliminar datos
5.4.4.4.1. python manage.py shell
6. Librerías para Data Science
6.1. Pandas
6.1.1. Importar Data
6.1.1.1. import pandas as pd
6.1.1.2. df = pd.read_csv ('data.csv' ) df = pd.to_csv('nerdata.csv')
6.1.1.2.1. Mostrar Nombre de Columnas list(df.columns)
6.1.2. Exploración de Datos
6.1.2.1. Tipos de Datos
6.1.2.2. df.head() df.tail()
6.1.2.3. df.types
6.1.2.4. df.describe()
6.1.2.5. df.info()
6.1.2.6. df['columna'].value_counts()
6.1.2.7. Select where df3 = df2.loc[df2["unemployment"] > 8.5]
6.1.2.8. df.loc[label] #filters by the labels of the index/column
6.1.2.9. df.iloc[index] #filters by the positions of the index/column
6.1.3. Preprocesamiento de Datos
6.1.3.1. Acceder a una Columan
6.1.3.1.1. df['nombrecolumna']
6.1.3.2. Datos Perdidos
6.1.3.2.1. Eliminar datos perididos
6.1.3.2.2. Reemplazar por un promedio
6.1.3.2.3. Reemplazar por frecuencia
6.1.3.2.4. Reemplazar basado en otras funciones
6.1.3.2.5. Mantener los datos perdidos
6.1.3.3. Resetear index
6.1.3.3.1. df.reset_index(drop=True, inplace=True)
6.1.3.4. Formatos de Datos
6.1.3.4.1. 1. df['horas] = 60*df['horas'] 2. df.rename(columns={"horas":"minutos"}, inplace = True)
6.1.3.4.2. Type de dato incorrecto astype permite dar nuevo formato
6.1.3.5. Normalización de Variable
6.1.3.5.1. Escalada simple
6.1.3.5.2. Min-Max
6.1.3.5.3. Z-score
6.1.3.6. Binning = Categorización
6.1.3.6.1. 1. bins = np.linspace(min(df['price´], max(df['price']), 4) 2. group_names = ["low", "medium", "High"] 3. df["price-binned"] = pd.cut(df["price"], bins, labels=group_names, include_lowest = True )
6.1.3.6.2. One-hot encoding Convertir valores String a int
6.1.4. Análisis de Datos
6.1.4.1. Estadísticos Descriptivos
6.1.4.1.1. df.describe()
6.1.4.1.2. Box plot
6.1.4.1.3. Scatter Plot
6.1.4.2. GroupBy
6.1.4.2.1. 1. df['drive-wheels'].unique()
6.1.4.2.2. df_group_one = df_group_one.groupby(['drive-wheels'],as_index=False).mean()
6.1.4.2.3. grouped_pivot = grouped_test1.pivot(index='drive-wheels',columns='body-style')
6.1.4.2.4. Puedo Crear un mapa de Calor
6.1.4.3. Correlación
6.1.4.3.1. Correlación Estadística
6.1.4.3.2. Correlación NO IMPLICA Causa
6.1.4.4. Análisis de Varianza (ANOVA)
6.1.4.4.1. # ANOVA f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'], grouped_test2.get_group('4wd')['price']) print( "ANOVA results: F=", f_val, ", P =", p_val)
6.1.4.5. Desarrollo de Modelo
6.1.4.5.1. Regresión simple
6.1.4.5.2. Regresión Multiple
6.1.4.5.3. Regresión Polinomial
6.1.4.5.4. Eficiencia de Modelo
6.1.4.6. Evaluación de Modelo
6.1.4.6.1. Data Train
6.1.4.6.2. Data Test
6.1.4.6.3. Sobreajuste
6.1.4.6.4. Subajuste
6.1.4.6.5. Ridge Regression
6.1.5. Select where df3 = df2.loc[df2["unemployment"] > 8.5]
6.2. Visualización de Datos
6.2.1. Matplotlib
6.2.1.1. Creada por John Hunter (1968 - 2012)
6.2.1.2. Gráficos
6.2.1.2.1. Mapas
6.3. Machine Learning
6.3.1. Scikit-learn
6.3.1.1. Supervised
6.3.1.1.1. Classification: Classifies labeled data
6.3.1.1.2. Regression: predicts trends using previous labeled data
6.3.1.2. Unsupervised learning
6.3.1.2.1. Clustering: find patterns and groupings from unlabeled data
6.3.1.3. Métodos
6.3.1.3.1. Simple Linear Regression
6.3.1.3.2. Clasificación
6.3.1.3.3. Árboles de Decisión
6.3.1.3.4. Logistic Regression
6.3.1.3.5. SVM Support Vector Machine
6.3.1.3.6. Clustering
6.3.1.3.7. Recommender Systems
6.4. Numpy
6.4.1. import numpy as np
6.4.2. x = a.np.array(lista)
6.4.3. a.size
6.4.4. a.ndim
6.4.5. a.mean
6.4.6. a.max
6.4.7. np.pi
6.4.8. np.linspace
6.4.9. np.dot
6.4.10. Plotvec2(a,b)
6.4.11. a.T
6.5. Matplotlib
6.6. from scipy import stats
7. Access Databases Using PYTHON
7.1. Application or Databases
7.2. SQL API
7.3. Esquema
7.4. Python Librerías para conección
7.4.1. ibm_db
7.4.2. ipython_sql
8. Lenguaje de Programación Utilizados en Data Science
8.1. Más Usados
8.1.1. Python
8.1.1.1. Used: Data Science AI ML Web development Internet of Thing (IoT) (Raspberry Pi)
8.1.1.1.1. Scientific computer: Pandas, NumPy, SciPy, Matplotlib
8.1.1.1.2. IA: PyTorch TensorFlow Keras Scikit-learn
8.1.1.1.3. Puede ser usado por su lenguaje natural: Natural lenguaje Processing (NLP) usando el Natural Lenguage Toolkit (NLTK)
8.1.2. R
8.1.2.1. Free Software El mayor repositorio de conocimiento estadístico.
8.1.3. SQL
8.1.3.1. Structure query Lenguage Utilizado para manejar datos estructurados, relacionando variables y entidades.
8.1.3.1.1. DB2 Firebird HSQL Informix InterBase MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL PervasiveSQL SQLite Sybase ASE
8.2. Otros
8.2.1. Java
8.2.1.1. Orientado a objetos Diseñado para ser rápido y escalable Java app se compilan con bytecode y corren en JVM
8.2.1.1.1. Weka (data mining) Java-ML (ml library) Apache MLlib (scalable ml) Deeplearning4j HADOOP big data
8.2.2. Scala
8.2.2.1. Programas Funcionales Extensión de Java, tb corre JVM Scalable Lenguage
8.2.2.1.1. Para DC: Spark - motor analitico para procesar big data, sql , ML, gráficos... - Shark, Mlib, GraphX, Spark Streaming
8.2.3. C++
8.2.3.1. extensión de C Velocidad de procesamiento de datos Muchas empresas lo usan para app en tiempo real
8.2.3.1.1. Para DC: TensorFlow es una librería para Deep Learning MongoDB es una NoSQL base de datos para gestionar big data Caffe es una algoritmo para deep learning
8.2.4. JavaScript
8.2.4.1. Tecnología para web, su proposito general es extender las capacidades de un navegador con Node.js para otros objetivos.
8.2.4.1.1. Para DC: TensorFlow.js para ML y DL con Node.js Brain.js - machinelear.js R-js algebra lineal Typescript
8.2.5. Julia
8.2.5.1. Diseñado por MIT para análisis numérico y ciencia computacional Rápido desarrollo como python o R, llegando a producir programas tan rápidos como C. Compilado con llamadas a C, Go, Java, MATLAB, R; Fortran, Python librerías Lenguaje joven
8.2.5.1.1. Para DC: JuliaDB
9. Instalación: Anaconda Navigator pip para instalar paquetes
10. Data Analysis IBM: * Todo tiene datos. * Nos ayuda a encontrar respuestas desde nuestros datos.
10.1. Librerías
10.1.1. Informática científica
10.1.1.1. Pandas: Data Stuctures (Data Frame) & tools
10.1.1.1.1. Import Data: 2 importantes propiedades: * Format: csv, json, xlsx,hdf * File Path of dataset: - Computer: /Desktop/mydata.csv - Internet: https://archive.ics.uci....
10.1.1.2. SciPy: Integrales, resolver ecuaciones diferencias, Oprimización
10.1.1.3. Numpy: Vectores y Matrices
10.1.2. Visualización: Utilizadas para mostrar nuestro análisis
10.1.2.1. Matplotlib: Plots & gráficos, más popular
10.1.2.2. Seaborn: plots: heat maps, time series, violin plots
10.1.2.3. Ggplots2 utilizada en R
10.1.3. Algorítmica: Crear modelos predictivos
10.1.3.1. Scikit-learn: Machine Learning : regressión, classification...)
10.1.3.1.1. Machine Learning: supervisados no supervisados reinforcement
10.1.3.1.2. Deep Leaning: Trata de emular el funcionamiento del cerebro humano
10.1.3.2. Statsmodels: Explote data, estimate statistical models, and performs statistical test
10.2. IA
10.2.1. PyTorch
10.2.2. TensorFlow
10.2.3. Keras
10.2.4. Scikit-learn
10.3. API
10.3.1. Your Program----- API----input -data- output Other Software Component
10.4. Data Set
10.4.1. Collection of data Data Structurada Ejemplo Csv
10.4.1.1. Private Data: Confidencial Provada o información personal Sensiblemente Comercial
10.4.1.2. Public Data: instituciones científicas gobierno organizaciones compañías
10.4.1.2.1. Open Souce: datacatalogs data.un.org data.gov europeandataportal Kaggle google data serch
11. Data Science Tools
11.1. Herramientas de Data Science: Fully Integrated visual tools Execution environments Data Asset Management Data Managment Data Ingretacion and Transformation Data Visualization Model Bulding Model Deployment Model Monitoring and Assessment Code Asset Management Development Enviroments (IDE)
11.1.1. Data Management
11.1.1.1. * MySQL and PostgreSQL no SQL databases such as MongoDB apache couchdb and apache cassandra and file based tools such as the Hadoop file system or cloud file systems like SEF Oracle Database Microsoft SQL server IBM DB2
11.1.2. Data Ingegration and Transformation
11.1.2.1. Apache airflow originally created by Airbnb cube flow which enables you to execute data science pipelines on top of kubernetes Apache Kafka which originated from LinkedIn Apache NiFi I which delivers a very nice visual editor Apache sparks SQL which enables you to use ANSI SQL and scales up to compute clusters of thousands of nodes and node read which also provides a visual editor node read consumes so little in resources that it even runs on small devices like a Raspberry Pi will now ETL Informatica IBM Infoshere DataStage Talend IBM Watson Studio Desktop
11.1.3. Data Visualization
11.1.3.1. Hue kibana Superset Tableau Power BI IBM Cognos Analytics IBM Watson Studio Desktop
11.1.4. Model Building
11.1.4.1. SPSS Modeler SAS IBM Watson Studio Desktop
11.1.5. Model Deployment
11.1.5.1. PredictionIO Seldon ( mleap TensorFLow Service TensorFlow Lite
11.1.6. Model Monitoring and Assessment
11.1.6.1. ModelDB un sistema para gestionar ML modelos Prometheus IBM Research Trusted AI Adversarial Robustness 360 Toolbox AI Explainability 360
11.1.7. Code Asset Management
11.1.7.1. Github git Gitlab Bitbucket Binstalks
11.1.7.1.1. GitHub: Ofrece un control de versión. Tutoriales try.github.io
11.1.7.1.2. Comandos Básicos
11.1.8. Data Asset Management
11.1.8.1. APache Atlas Egeria (open) Kylo Informatica IBM InfoSphere
11.1.9. Development Enviroments
11.1.9.1. Jupyter Notebook Jupyter lab (más moderno ) Apache Zeppelin R Studio Spyder (Python)
11.1.9.1.1. Jupyter Notebook
11.1.10. Execution environments
11.1.10.1. Apache Spark Apache Flink (enfocado en real time) Rieselab Ray (deep Model)
11.1.11. Fully Integrated visual tools * D ingr and transf * D Visualization * Model Buildin
11.1.11.1. Knime (R, python, apache) Orange (fácil de usar)
11.1.12. Cloud Based Tools for data Science
11.1.12.1. IBM WS Azure H2O.ai
11.1.12.1.1. Watson Studio
11.1.12.2. Data Managment: Amazon DynamoDB NoSqL DB Cloudant CouchDB relax IBM db2
11.1.12.3. Data Ingration and Trans: Informatica IBM Refinery
11.1.12.4. Data Visualization: Datameer IBM Cognos Analytics (WS)
11.1.12.5. Model Building: IBM W ML Google Cloud
11.1.12.6. Model Deployment IBM SPSS MODELER
11.1.12.7. Model Monitoring and assessment: aws Amazon SageMaker Model Monitor Watson OpenSacale
12. Data Science Methodology
12.1. CRISP-DM: Consta de 7 Pasos
12.1.1. 1. Business Understanding
12.1.2. 1.1 Analytic Approach
12.1.3. 1.2 Data Requirements
12.1.4. 1.3 Data Collection
12.1.5. 2. Data Understanding
12.1.5.1. Estadísticos Descritivos: Histogramas, etc
12.1.5.2. Data quiality
12.1.5.2.1. Missing Values
12.1.5.2.2. Invalid
12.1.5.2.3. Misleading Values
12.1.6. 3. Data Preparation
12.1.6.1. Cleansing data: Uno de los que más demanda tiempo
12.1.7. 4. Modeling
12.1.7.1. Predictive Model
12.1.7.2. Descriptive
12.1.7.3. Cost Study Roc curve
12.1.7.3.1. Training data set
12.1.7.3.2. Test data set
12.1.8. 5. Evaluation
12.1.9. 6. Deployment
12.1.10. 7. Feedback
12.2. Decision Three
13. SQL DataBases
13.1. Utlizado para Crear y administrar bases de datos. DB = repositorio de datos. hay diferentes formas de DB con diferentes tipos de datos.
13.2. Db2 Warehouse on Cloud
13.2.1. Permite acceder a datos desde una nube. fácil de usar. Escalable. Respaldo de información.
13.3. Comando Basicos
13.3.1. Create
13.3.1.1. DDL data definition lenguare DML data manipulation lenguage
13.3.1.1.1. SELECT * FROM DB1
13.3.1.1.2. WHERE
13.3.1.1.3. COUNT
13.3.1.1.4. DISTINCT
13.3.1.1.5. TOP( ) sql server LIMIT mysql ROWNUM oracle
13.3.1.1.6. INSERT
13.3.1.1.7. UPDATE
13.3.1.1.8. DELETE
13.3.1.1.9. LIKE
13.3.1.1.10. AND
13.3.1.1.11. BETWEEN
13.3.1.1.12. OR
13.3.1.1.13. ORDER BY
13.3.1.1.14. GROUP BY
13.3.1.1.15. HAVING
13.3.1.1.16. AS
13.3.2. insert
13.3.3. SELECT
13.3.3.1. STRING
13.3.3.1.1. LEFT
13.3.3.1.2. RIGHT
13.3.3.1.3. LEN (column)
13.3.3.1.4. CHARINDEX( ' ' , column )
13.3.3.1.5. REPLACE ( 'x' , ' ', ' ' )
13.3.3.1.6. SUBSTRING(string, start, length)
13.3.4. update
13.3.5. delete
13.4. Information Model
13.4.1. Modelo Entidad Relación
13.4.1.1. Entidad
13.4.1.2. Atributo
13.4.1.3. Relación
13.4.1.3.1. Grado = n° de atributos en una relación o columnas
13.4.1.3.2. Cardinalidad = n° de tuplas o filas
13.4.1.3.3. Esquema de relación
13.4.1.4. Llave Primaria
13.4.1.5. Llave Foranea
13.4.1.6. Integridad Semántica int - chart etc.
13.4.1.7. Restricciones Semánticas
13.5. Data Model
13.6. Funciones
13.6.1. SUM ( )
13.6.2. MAX ( )
13.6.3. MIN ( )
13.6.4. AVG ( )
13.6.5. ROUND ( )
13.6.6. LENGTH ( )
13.6.7. UCASE ( )
13.6.8. LCASE ( )
13.6.9. DATE
13.6.9.1. YYYYMMDD
13.6.9.2. Funciones para extraer cierto date
13.6.9.3. CURRENT_DATE
13.6.10. TIME
13.6.10.1. HHMMSS
13.6.10.2. CURRENT_TIME
13.6.11. TIMESTAMP
13.6.11.1. YYYYXXDDHHMMSSZZZZZZ
13.7. SUB - CONSULTAS
13.8. MULTIPLES TABLES
13.8.1. SUB QUERIES
13.8.2. JOIN
13.8.2.1. INNER JOIN
13.8.2.2. OUTER JOIN
13.8.2.2.1. LEFT OUTER JOIN
13.8.2.2.2. RIGHT OUTER JOIN
13.8.2.2.3. FULL OUTER JOIN
14. BIG DATA
14.1. Tecnologías Cloud
14.1.1. On premises
14.1.2. Infraestructura como Servicio (IaaS)
14.1.3. Plataforma como Servicio (PaaS)
14.1.4. Software como Servicio (SaaS)
14.2. Spark
14.2.1. Procesamiento Streaming
14.2.1.1. Apache Kafka
14.2.1.2. Apache Flink
14.3. Hadoop
14.3.1. Principal tecnología BD. Su funcionamiento se basa en el concepto de procesamiento distribuido.
14.4. IA
14.5. 5 V
14.5.1. Volumen
14.5.2. Variedad
14.5.3. Velocidad
14.5.4. Veracidad
14.5.5. Valor
14.6. Data Science
14.6.1. Computer Science IT
14.6.2. Math and Statistics
14.6.3. Domains / Business Knowledge
14.7. Top Algoritmos
14.7.1. ¿Qué Tipo de datos vas a analizar
14.7.1.1. 1. Estructurado
14.7.1.1.1. Reducir Dimensionalidad
14.7.1.1.2. Analizar dimensión social
14.7.1.1.3. Predecir algo
14.7.1.1.4. Agrupar / Segmentar
14.7.1.2. 2. No Estructurados
14.7.1.2.1. Texto
14.7.1.2.2. Video / Imagen