Data Science / Python

Primeros conocimientos en lenguaje Python

Get Started. It's Free
or sign up with your email address
Data Science / Python by Mind Map: Data Science / Python

1. Lenguaje de Programación Utilizados en Data Science

1.1. Más Usados

1.1.1. Python

1.1.1.1. Used: Data Science AI ML Web development Internet of Thing (IoT) (Raspberry Pi)

1.1.1.1.1. Scientific computer: Pandas, NumPy, SciPy, Matplotlib

1.1.1.1.2. IA: PyTorch TensorFlow Keras Scikit-learn

1.1.1.1.3. Puede ser usado por su lenguaje natural: Natural lenguaje Processing (NLP) usando el Natural Lenguage Toolkit (NLTK)

1.1.2. R

1.1.2.1. Free Software El mayor repositorio de conocimiento estadístico.

1.1.3. SQL

1.1.3.1. Structure query Lenguage Utilizado para manejar datos estructurados, relacionando variables y entidades.

1.1.3.1.1. DB2 Firebird HSQL Informix InterBase MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL PervasiveSQL SQLite Sybase ASE

1.2. Otros

1.2.1. Java

1.2.1.1. Orientado a objetos Diseñado para ser rápido y escalable Java app se compilan con bytecode y corren en JVM

1.2.1.1.1. Weka (data mining) Java-ML (ml library) Apache MLlib (scalable ml) Deeplearning4j HADOOP big data

1.2.2. Scala

1.2.2.1. Programas Funcionales Extensión de Java, tb corre JVM Scalable Lenguage

1.2.2.1.1. Para DC: Spark - motor analitico para procesar big data, sql , ML, gráficos... - Shark, Mlib, GraphX, Spark Streaming

1.2.3. C++

1.2.3.1. extensión de C Velocidad de procesamiento de datos Muchas empresas lo usan para app en tiempo real

1.2.3.1.1. Para DC: TensorFlow es una librería para Deep Learning MongoDB es una NoSQL base de datos para gestionar big data Caffe es una algoritmo para deep learning

1.2.4. JavaScript

1.2.4.1. Tecnología para web, su proposito general es extender las capacidades de un navegador con Node.js para otros objetivos.

1.2.4.1.1. Para DC: TensorFlow.js para ML y DL con Node.js Brain.js - machinelear.js R-js algebra lineal Typescript

1.2.5. Julia

1.2.5.1. Diseñado por MIT para análisis numérico y ciencia computacional Rápido desarrollo como python o R, llegando a producir programas tan rápidos como C. Compilado con llamadas a C, Go, Java, MATLAB, R; Fortran, Python librerías Lenguaje joven

1.2.5.1.1. Para DC: JuliaDB

2. Instalación: Anaconda Navigator pip para instalar paquetes

3. Conceptos Básicos

3.1. funciones

3.1.1. def f1 (input)

3.1.2. sort ( ) Ordena una lista de forma ascendente

3.2. Expresiones Matemáticas * math: para constantes matematicas

3.2.1. suma +

3.2.2. resta -

3.2.3. multiplicación *

3.2.4. dividir /

3.2.5. obtener parte entera //

3.2.6. Obtener restante de división %

3.2.7. Potencia **

3.2.8. raíz cuadrada sqtr( )

3.3. Types

3.3.1. int = número entero

3.3.2. float = numero decimal

3.3.3. str = string

3.3.4. Boolean -> True (1) - False (0)

3.4. Variable

3.4.1. x = 'valor o características la variable'

3.5. Expresiones

3.5.1. len( ) devuelve el largo de un string, lista, etc

3.5.2. n\ salta linea

3.5.3. t\ tabula

3.5.4. \\ incluye una backslash

3.5.5. silide

3.5.6. r al principio me devuelve tal cual la cadena

3.5.7. stride ( : : 2)

3.5.8. x.upper( )

3.5.9. x.replace ('lo que busca','por lo que cambio'

3.6. Tuplas ( )

3.7. List [ ]

3.7.1. L.extend( ) agrega elementos al final

3.7.2. L.append() agrega 1 nuevo elemento que puede contener más elementos

3.7.3. del(L[0]) borra el primer elemento

3.7.4. L.split( )

3.7.5. A = B[:] Clona la lista

3.8. Diccionarios DICT { keys : values }

3.8.1. del(DICT['x'])

3.8.2. DICT.values()

3.8.3. DICT.keys()

3.8.4. in DICT['x'] retorna true si existe

3.8.5. del(release_year_dict['Thriller'])

3.9. Set { }

3.9.1. union

3.9.2. &

3.9.3. add

3.9.4. remove

3.9.5. issubset ( )

3.9.6. in

3.9.7. difference

3.9.8. intersection

3.10. Conditions an branching

3.10.1. ==

3.10.2. !=

3.10.3. <=

3.10.4. >=

3.10.5. <

3.10.6. >

3.10.7. if

3.10.8. elif

3.10.9. else

3.10.10. or

3.10.11. and

3.10.12. loop

3.10.12.1. for

3.10.12.2. while

3.11. range (N)

3.12. Objetos y clases

3.12.1. Objetos

3.13. Read File

3.13.1. file1 = open(example1, "r")

3.14. Writing Files

3.14.1. file1 = open(example1, "w")

4. IDE: IPython / Jupyter Integrated Development Environment

4.1. es una aplicación informática que proporciona servicios integrales para facilitarle al desarrollador o programador el desarrollo de software. * Jupyter Notebook: * Sublime Text: install package - emmet: html:5 - SideBarEnhancements: Opciones de carpeta en la barra izquierda - Bracket​Highlighter: Resalta llaves { } - Python Pep 8: ayuda a compilación

5. Big Data Coursera

5.1. The V's of Big Data: * Velocidad: * Volumen: * Variedad: * Veracidad: * Valor:

5.1.1. Machine Learning: Es una conjunto de IA que usa un algoritmo para analizar data y tomar decisiones inteligentes basado en lo que aprende, sin una programación explicita. Deep Learning is a type of Machine Learning that simulates human decision-making using neural networks.

5.1.1.1. * Entrena con grandes conjuntos de datos. * No sigue reglas basadas en algoritmos. * Aprende de ejemlos.

5.1.1.2. Deep Learning: Es un subconjunto de ML que usa redes neuronales para simular decisiones humanas

5.1.1.2.1. Neural Networks: Toman inspiración de una neurona biologica, pero funcionan un tanto diferente. Aprende a medida que aumentan los datos.

5.1.1.2.2. Utilizada en: * Reconocimiento facial o personas hablando. * Hay grandes librerías que pueden ayudatrte a desarrollar deep learing pero debes conocer lo que se desarrolla internamente. Álgebra.

5.1.1.2.3. Metodologías: Regresión lineal Regresión logística Árboles de decisión Random Forest XGBoost Gradient Boosting Isolation Forest Redes neuronales Support Vector Machines K-Means

5.2. Tools: * Apache SparK * Hadoop

5.2.1. Hadoop: * Big data clousters * Podemos tomar bases de datos enormes para buscar patrones. * Machine Learning - decisions science

6. Data Analysis IBM: * Todo tiene datos. * Nos ayuda a encontrar respuestas desde nuestros datos.

6.1. Librerías

6.1.1. Informática científica

6.1.1.1. Pandas: Data Stuctures (Data Frame) & tools

6.1.1.1.1. Import Data: 2 importantes propiedades: * Format: csv, json, xlsx,hdf * File Path of dataset: - Computer: /Desktop/mydata.csv - Internet: https://archive.ics.uci....

6.1.1.2. SciPy: Integrales, resolver ecuaciones diferencias, Oprimización

6.1.1.3. Numpy: Vectores y Matrices

6.1.2. Visualización: Utilizadas para mostrar nuestro análisis

6.1.2.1. Matplotlib: Plots & gráficos, más popular

6.1.2.2. Seaborn: plots: heat maps, time series, violin plots

6.1.2.3. Ggplots2 utilizada en R

6.1.3. Algorítmica: Crear modelos predictivos

6.1.3.1. Scikit-learn: Machine Learning : regressión, classification...)

6.1.3.1.1. Machine Learning: supervisados no supervisados reinforcement

6.1.3.1.2. Deep Leaning: Trata de emular el funcionamiento del cerebro humano

6.1.3.2. Statsmodels: Explote data, estimate statistical models, and performs statistical test

6.2. IA

6.2.1. PyTorch

6.2.2. TensorFlow

6.2.3. Keras

6.2.4. Scikit-learn

6.3. API

6.3.1. Your Program----- API----input -data- output Other Software Component

6.4. Data Set

6.4.1. Collection of data Data Structurada Ejemplo Csv

6.4.1.1. Private Data: Confidencial Provada o información personal Sensiblemente Comercial

6.4.1.2. Public Data: instituciones científicas gobierno organizaciones compañías

6.4.1.2.1. Open Souce: datacatalogs data.un.org data.gov europeandataportal Kaggle google data serch

7. Data Science & IA

7.1. DS es el proceso y métodos para extraer conocimiento e ideas a partir de grandes volúmenes de datos.

7.2. Involucra, matemáticas, estadística, visualización, ML y más.

7.3. puede ser ML, algoritmos, deep learning models, etc.

7.4. Es un término amplio que involucra todo el proceso y metodologías.

7.5. IA involucra todo lo relacionado a la maquinas para aprender cómo resolver problemas tomando decisiones inteligentes.

7.6. AMBOS IA & DATA SCIENCE PUEDEN UTILIZAR BIG DATA

7.7. ¿cómo comienzan las empresas?: Las empresas necesitan conocer sobre sus clientes y sobre sus ventas, etc. Los datos siempre son relevantes con el tiempo. Algo que no es posible medir es difícil de probar y mejorar. El propósito de un proyecto de DS es comunicar nueva información e ideas a partir del análisis de datos para la toma de decisiones.

8. Django:

8.1. Conceptos Django

8.1.1. pip install Django

8.1.2. Entorno de Trabajo

8.1.2.1. Local

8.1.2.1.1. 1. Una única versión de Django

8.1.2.1.2. 2. Una única versión de Python

8.1.2.1.3. 3. Mismas dependencias para todos los proyectos

8.1.2.2. Virtual

8.1.2.2.1. 1. Varias versiones de Django

8.1.2.2.2. 2. Varias versiones de Python

8.1.2.2.3. 3. Diferentes dependencias para todos los proyectos.

8.1.2.2.4. 4. Igualar entornos de Desarrollo - Pruebas - Produccion

8.1.3. Comandos Importantes

8.1.3.1. django-admin startproject 'nombreProyecto' Para comenzar un proyecto

8.1.3.2. python manage.py help

8.1.3.3. python manage.py migrate

8.1.3.4. python manage.py runserver

8.1.4. Archivos Django

8.1.4.1. manage.py

8.1.4.2. __init__.py

8.1.4.3. asgi.py

8.1.4.4. settings.py

8.1.4.5. urls.py

8.1.4.6. wsgi.py

8.2. Modelo Vista Controlador MVC

8.2.1. Vista

8.2.1.1. Muestra la información al Usuario

8.2.2. Controlador

8.2.2.1. Gestiona las comunicaciones entre la vista y el modelo. (Ej. mysql)

8.2.3. Modelo

8.2.3.1. Se encarga de gestionar los datos: - Obtener info de una base de datos

8.3. Django: Modelo Template Vista MTV

8.3.1. Template (vista)

8.3.2. View ( como Controlador)

8.3.3. Model (como Modelo)

8.4. Comenzar

8.4.1. views.py

8.4.2. urls.py

8.4.3. Plantillas

8.4.3.1. Cadenas de texto

8.4.3.2. Sirven para separar la parte lógica (datos) de la parte visual (presentación) de un documento web

8.4.3.3. Se utilizan de diversas formas, siendo la más habitual: guardar la cadena de texto en un documento independiente y cargado este desde la vista

8.4.3.4. ¿Cómo de usan?

8.4.3.4.1. 1. Creación de objeto de tipo Template: plt=Template(doc_externo.read())

8.4.3.4.2. 2. Creación de Contexto ctx=Context()

8.4.3.4.3. 3. Renderizado de objeto Template: documento=plt.render(ctx)

8.4.3.5. Jerarquía u Orden de llamadas desde plantillas

8.4.3.5.1. 1. DIccionarios

8.4.3.5.2. 2. Atributo

8.4.3.5.3. 3. Método

8.4.3.5.4. 4. Índice de lista

8.4.3.6. Condicionales

8.4.3.7. Filtros

8.4.3.8. Cargadores de Plantilla

8.4.3.8.1. import loader

8.4.3.8.2. En Setting DIR poner la dirección de las plantillas

8.4.3.9. Shortcut

8.4.3.9.1. import django.shortcut import render

8.4.3.10. Plantillas Incrustadas

8.4.3.10.1. {% include "superior/barra.html" %}

8.4.3.11. Herencia de Plantilla

8.4.4. BBDD

8.4.4.1. Proyecto vs Aplicación

8.4.4.2. Clase Model

8.4.4.2.1. python manage.py startapp

8.4.4.3. Asignar tablas a sqlite.

8.4.4.3.1. 1. Genrar codigo sql python manage.py sqlmigrate gestionPedidos

8.4.4.3.2. 2. python manage.py sqlmigrate gestionPedidos 0001

8.4.4.3.3. 3. python manage.py migrate

8.4.4.4. Agregar, modificar o eliminar datos

8.4.4.4.1. python manage.py shell

9. Data Science Tools

9.1. Herramientas de Data Science: Fully Integrated visual tools Execution environments Data Asset Management Data Managment Data Ingretacion and Transformation Data Visualization Model Bulding Model Deployment Model Monitoring and Assessment Code Asset Management Development Enviroments (IDE)

9.1.1. Data Management

9.1.1.1. * MySQL and PostgreSQL no SQL databases such as MongoDB apache couchdb and apache cassandra and file based tools such as the Hadoop file system or cloud file systems like SEF Oracle Database Microsoft SQL server IBM DB2

9.1.2. Data Ingegration and Transformation

9.1.2.1. Apache airflow originally created by Airbnb cube flow which enables you to execute data science pipelines on top of kubernetes Apache Kafka which originated from LinkedIn Apache NiFi I which delivers a very nice visual editor Apache sparks SQL which enables you to use ANSI SQL and scales up to compute clusters of thousands of nodes and node read which also provides a visual editor node read consumes so little in resources that it even runs on small devices like a Raspberry Pi will now ETL Informatica IBM Infoshere DataStage Talend IBM Watson Studio Desktop

9.1.3. Data Visualization

9.1.3.1. Hue kibana Superset Tableau Power BI IBM Cognos Analytics IBM Watson Studio Desktop

9.1.4. Model Building

9.1.4.1. SPSS Modeler SAS IBM Watson Studio Desktop

9.1.5. Model Deployment

9.1.5.1. PredictionIO Seldon ( mleap TensorFLow Service TensorFlow Lite

9.1.6. Model Monitoring and Assessment

9.1.6.1. ModelDB un sistema para gestionar ML modelos Prometheus IBM Research Trusted AI Adversarial Robustness 360 Toolbox AI Explainability 360

9.1.7. Code Asset Management

9.1.7.1. Github git Gitlab Bitbucket Binstalks

9.1.7.1.1. GitHub: Ofrece un control de versión. Tutoriales try.github.io

9.1.7.1.2. Comandos Básicos

9.1.8. Data Asset Management

9.1.8.1. APache Atlas Egeria (open) Kylo Informatica IBM InfoSphere

9.1.9. Development Enviroments

9.1.9.1. Jupyter Notebook Jupyter lab (más moderno ) Apache Zeppelin R Studio Spyder (Python)

9.1.9.1.1. Jupyter Notebook

9.1.10. Execution environments

9.1.10.1. Apache Spark Apache Flink (enfocado en real time) Rieselab Ray (deep Model)

9.1.11. Fully Integrated visual tools * D ingr and transf * D Visualization * Model Buildin

9.1.11.1. Knime (R, python, apache) Orange (fácil de usar)

9.1.12. Cloud Based Tools for data Science

9.1.12.1. IBM WS Azure H2O.ai

9.1.12.1.1. Watson Studio

9.1.12.2. Data Managment: Amazon DynamoDB NoSqL DB Cloudant CouchDB relax IBM db2

9.1.12.3. Data Ingration and Trans: Informatica IBM Refinery

9.1.12.4. Data Visualization: Datameer IBM Cognos Analytics (WS)

9.1.12.5. Model Building: IBM W ML Google Cloud

9.1.12.6. Model Deployment IBM SPSS MODELER

9.1.12.7. Model Monitoring and assessment: aws Amazon SageMaker Model Monitor Watson OpenSacale

10. Data Science Methodology

10.1. CRISP-DM: Consta de 7 Pasos

10.1.1. 1. Business Understanding

10.1.2. 1.1 Analytic Approach

10.1.3. 1.2 Data Requirements

10.1.4. 1.3 Data Collection

10.1.5. 2. Data Understanding

10.1.5.1. Estadísticos Descritivos: Histogramas, etc

10.1.5.2. Data quiality

10.1.5.2.1. Missing Values

10.1.5.2.2. Invalid

10.1.5.2.3. Misleading Values

10.1.6. 3. Data Preparation

10.1.6.1. Cleansing data: Uno de los que más demanda tiempo

10.1.7. 4. Modeling

10.1.7.1. Predictive Model

10.1.7.2. Descriptive

10.1.7.3. Cost Study Roc curve

10.1.7.3.1. Training data set

10.1.7.3.2. Test data set

10.1.8. 5. Evaluation

10.1.9. 6. Deployment

10.1.10. 7. Feedback

10.2. Decision Three

11. Librerías para Data Science

11.1. Pandas

11.1.1. Importar Data

11.1.1.1. import pandas as pd

11.1.1.2. df = pd.read_csv ('data.csv' ) df = pd.to_csv('nerdata.csv')

11.1.1.2.1. Mostrar Nombre de Columnas list(df.columns)

11.1.2. Exploración de Datos

11.1.2.1. Tipos de Datos

11.1.2.2. df.head() df.tail()

11.1.2.3. df.types

11.1.2.4. df.describe()

11.1.2.5. df.info()

11.1.2.6. df['columna'].value_counts()

11.1.2.7. Select where df3 = df2.loc[df2["unemployment"] > 8.5]

11.1.2.8. df.loc[label] #filters by the labels of the index/column

11.1.2.9. df.iloc[index] #filters by the positions of the index/column

11.1.3. Preprocesamiento de Datos

11.1.3.1. Acceder a una Columan

11.1.3.1.1. df['nombrecolumna']

11.1.3.2. Datos Perdidos

11.1.3.2.1. Eliminar datos perididos

11.1.3.2.2. Reemplazar por un promedio

11.1.3.2.3. Reemplazar por frecuencia

11.1.3.2.4. Reemplazar basado en otras funciones

11.1.3.2.5. Mantener los datos perdidos

11.1.3.3. Resetear index

11.1.3.3.1. df.reset_index(drop=True, inplace=True)

11.1.3.4. Formatos de Datos

11.1.3.4.1. 1. df['horas] = 60*df['horas'] 2. df.rename(columns={"horas":"minutos"}, inplace = True)

11.1.3.4.2. Type de dato incorrecto astype permite dar nuevo formato

11.1.3.5. Normalización de Variable

11.1.3.5.1. Escalada simple

11.1.3.5.2. Min-Max

11.1.3.5.3. Z-score

11.1.3.6. Binning = Categorización

11.1.3.6.1. 1. bins = np.linspace(min(df['price´], max(df['price']), 4) 2. group_names = ["low", "medium", "High"] 3. df["price-binned"] = pd.cut(df["price"], bins, labels=group_names, include_lowest = True )

11.1.3.6.2. One-hot encoding Convertir valores String a int

11.1.4. Análisis de Datos

11.1.4.1. Estadísticos Descriptivos

11.1.4.1.1. df.describe()

11.1.4.1.2. Box plot

11.1.4.1.3. Scatter Plot

11.1.4.2. GroupBy

11.1.4.2.1. 1. df['drive-wheels'].unique()

11.1.4.2.2. df_group_one = df_group_one.groupby(['drive-wheels'],as_index=False).mean()

11.1.4.2.3. grouped_pivot = grouped_test1.pivot(index='drive-wheels',columns='body-style')

11.1.4.2.4. Puedo Crear un mapa de Calor

11.1.4.3. Correlación

11.1.4.3.1. Correlación Estadística

11.1.4.3.2. Correlación NO IMPLICA Causa

11.1.4.4. Análisis de Varianza (ANOVA)

11.1.4.4.1. # ANOVA f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'], grouped_test2.get_group('4wd')['price']) print( "ANOVA results: F=", f_val, ", P =", p_val)

11.1.4.5. Desarrollo de Modelo

11.1.4.5.1. Regresión simple

11.1.4.5.2. Regresión Multiple

11.1.4.5.3. Regresión Polinomial

11.1.4.5.4. Eficiencia de Modelo

11.1.4.6. Evaluación de Modelo

11.1.4.6.1. Data Train

11.1.4.6.2. Data Test

11.1.4.6.3. Sobreajuste

11.1.4.6.4. Subajuste

11.1.4.6.5. Ridge Regression

11.1.5. Select where df3 = df2.loc[df2["unemployment"] > 8.5]

11.2. Visualización de Datos

11.2.1. Matplotlib

11.2.1.1. Creada por John Hunter (1968 - 2012)

11.2.1.2. Gráficos

11.2.1.2.1. Mapas

11.3. Machine Learning

11.3.1. Scikit-learn

11.3.1.1. Supervised

11.3.1.1.1. Classification: Classifies labeled data

11.3.1.1.2. Regression: predicts trends using previous labeled data

11.3.1.2. Unsupervised learning

11.3.1.2.1. Clustering: find patterns and groupings from unlabeled data

11.3.1.3. Métodos

11.3.1.3.1. Simple Linear Regression

11.3.1.3.2. Clasificación

11.3.1.3.3. Árboles de Decisión

11.3.1.3.4. Logistic Regression

11.3.1.3.5. SVM Support Vector Machine

11.3.1.3.6. Clustering

11.3.1.3.7. Recommender Systems

11.4. Numpy

11.4.1. import numpy as np

11.4.2. x = a.np.array(lista)

11.4.3. a.size

11.4.4. a.ndim

11.4.5. a.mean

11.4.6. a.max

11.4.7. np.pi

11.4.8. np.linspace

11.4.9. np.dot

11.4.10. Plotvec2(a,b)

11.4.11. a.T

11.5. Matplotlib

11.6. from scipy import stats

12. SQL DataBases

12.1. Utlizado para Crear y administrar bases de datos. DB = repositorio de datos. hay diferentes formas de DB con diferentes tipos de datos.

12.2. Db2 Warehouse on Cloud

12.2.1. Permite acceder a datos desde una nube. fácil de usar. Escalable. Respaldo de información.

12.3. Comando Basicos

12.3.1. Create

12.3.1.1. DDL data definition lenguare DML data manipulation lenguage

12.3.1.1.1. SELECT * FROM DB1

12.3.1.1.2. WHERE

12.3.1.1.3. COUNT

12.3.1.1.4. DISTINCT

12.3.1.1.5. TOP( ) sql server LIMIT mysql ROWNUM oracle

12.3.1.1.6. INSERT

12.3.1.1.7. UPDATE

12.3.1.1.8. DELETE

12.3.1.1.9. LIKE

12.3.1.1.10. AND

12.3.1.1.11. BETWEEN

12.3.1.1.12. OR

12.3.1.1.13. ORDER BY

12.3.1.1.14. GROUP BY

12.3.1.1.15. HAVING

12.3.1.1.16. AS

12.3.2. insert

12.3.3. SELECT

12.3.3.1. STRING

12.3.3.1.1. LEFT

12.3.3.1.2. RIGHT

12.3.3.1.3. LEN (column)

12.3.3.1.4. CHARINDEX( ' ' , column )

12.3.3.1.5. REPLACE ( 'x' , ' ', ' ' )

12.3.3.1.6. SUBSTRING(string, start, length)

12.3.4. update

12.3.5. delete

12.4. Information Model

12.4.1. Modelo Entidad Relación

12.4.1.1. Entidad

12.4.1.2. Atributo

12.4.1.3. Relación

12.4.1.3.1. Grado = n° de atributos en una relación o columnas

12.4.1.3.2. Cardinalidad = n° de tuplas o filas

12.4.1.3.3. Esquema de relación

12.4.1.4. Llave Primaria

12.4.1.5. Llave Foranea

12.4.1.6. Integridad Semántica int - chart etc.

12.4.1.7. Restricciones Semánticas

12.5. Data Model

12.6. Funciones

12.6.1. SUM ( )

12.6.2. MAX ( )

12.6.3. MIN ( )

12.6.4. AVG ( )

12.6.5. ROUND ( )

12.6.6. LENGTH ( )

12.6.7. UCASE ( )

12.6.8. LCASE ( )

12.6.9. DATE

12.6.9.1. YYYYMMDD

12.6.9.2. Funciones para extraer cierto date

12.6.9.3. CURRENT_DATE

12.6.10. TIME

12.6.10.1. HHMMSS

12.6.10.2. CURRENT_TIME

12.6.11. TIMESTAMP

12.6.11.1. YYYYXXDDHHMMSSZZZZZZ

12.7. SUB - CONSULTAS

12.8. MULTIPLES TABLES

12.8.1. SUB QUERIES

12.8.2. JOIN

12.8.2.1. INNER JOIN

12.8.2.2. OUTER JOIN

12.8.2.2.1. LEFT OUTER JOIN

12.8.2.2.2. RIGHT OUTER JOIN

12.8.2.2.3. FULL OUTER JOIN

13. Access Databases Using PYTHON

13.1. Application or Databases

13.2. SQL API

13.3. Esquema

13.4. Python Librerías para conección

13.4.1. ibm_db

13.4.2. ipython_sql

14. BIG DATA

14.1. Tecnologías Cloud

14.1.1. On premises

14.1.2. Infraestructura como Servicio (IaaS)

14.1.3. Plataforma como Servicio (PaaS)

14.1.4. Software como Servicio (SaaS)

14.2. Spark

14.2.1. Procesamiento Streaming

14.2.1.1. Apache Kafka

14.2.1.2. Apache Flink

14.3. Hadoop

14.3.1. Principal tecnología BD. Su funcionamiento se basa en el concepto de procesamiento distribuido.

14.4. IA

14.5. 5 V

14.5.1. Volumen

14.5.2. Variedad

14.5.3. Velocidad

14.5.4. Veracidad

14.5.5. Valor

14.6. Data Science

14.6.1. Computer Science IT

14.6.2. Math and Statistics

14.6.3. Domains / Business Knowledge

14.7. Top Algoritmos

14.7.1. ¿Qué Tipo de datos vas a analizar

14.7.1.1. 1. Estructurado

14.7.1.1.1. Reducir Dimensionalidad

14.7.1.1.2. Analizar dimensión social

14.7.1.1.3. Predecir algo

14.7.1.1.4. Agrupar / Segmentar

14.7.1.2. 2. No Estructurados

14.7.1.2.1. Texto

14.7.1.2.2. Video / Imagen

15. Scala

15.1. Ventajas: Conciso. Elegante Tipado Estático Compila contra la JVM y compatible con Java Es de los más valorados.

15.2. Suiza 2003 Martin Odersky