Data Science / Python

Primeros conocimientos en lenguaje Python

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Data Science / Python por Mind Map: Data Science / Python

1. Conceptos Básicos

1.1. funciones

1.1.1. def f1 (input)

1.1.2. sort ( ) Ordena una lista de forma ascendente

1.2. Expresiones Matemáticas * math: para constantes matematicas

1.2.1. suma +

1.2.2. resta -

1.2.3. multiplicación *

1.2.4. dividir /

1.2.5. obtener parte entera //

1.2.6. Obtener restante de división %

1.2.7. Potencia **

1.2.8. raíz cuadrada sqtr( )

1.3. Types

1.3.1. int = número entero

1.3.2. float = numero decimal

1.3.3. str = string

1.3.4. Boolean -> True (1) - False (0)

1.4. Variable

1.4.1. x = 'valor o características la variable'

1.5. Expresiones

1.5.1. len( ) devuelve el largo de un string, lista, etc

1.5.2. n\ salta linea

1.5.3. t\ tabula

1.5.4. \\ incluye una backslash

1.5.5. silide

1.5.6. r al principio me devuelve tal cual la cadena

1.5.7. stride ( : : 2)

1.5.8. x.upper( )

1.5.9. x.replace ('lo que busca','por lo que cambio'

1.6. Tuplas ( )

1.7. List [ ]

1.7.1. L.extend( ) agrega elementos al final

1.7.2. L.append() agrega 1 nuevo elemento que puede contener más elementos

1.7.3. del(L[0]) borra el primer elemento

1.7.4. L.split( )

1.7.5. A = B[:] Clona la lista

1.8. Diccionarios DICT { keys : values }

1.8.1. del(DICT['x'])

1.8.2. DICT.values()

1.8.3. DICT.keys()

1.8.4. in DICT['x'] retorna true si existe

1.8.5. del(release_year_dict['Thriller'])

1.9. Set { }

1.9.1. union

1.9.2. &

1.9.3. add

1.9.4. remove

1.9.5. issubset ( )

1.9.6. in

1.9.7. difference

1.9.8. intersection

1.10. Conditions an branching

1.10.1. ==

1.10.2. !=

1.10.3. <=

1.10.4. >=

1.10.5. <

1.10.6. >

1.10.7. if

1.10.8. elif

1.10.9. else

1.10.10. or

1.10.11. and

1.10.12. loop

1.10.12.1. for

1.10.12.2. while

1.11. range (N)

1.12. Objetos y clases

1.12.1. Objetos

1.13. Read File

1.13.1. file1 = open(example1, "r")

1.14. Writing Files

1.14.1. file1 = open(example1, "w")

2. IDE: IPython / Jupyter Integrated Development Environment

2.1. es una aplicación informática que proporciona servicios integrales para facilitarle al desarrollador o programador el desarrollo de software. * Jupyter Notebook: * Sublime Text: install package - emmet: html:5 - SideBarEnhancements: Opciones de carpeta en la barra izquierda - Bracket​Highlighter: Resalta llaves { } - Python Pep 8: ayuda a compilación

3. Big Data Coursera

3.1. The V's of Big Data: * Velocidad: * Volumen: * Variedad: * Veracidad: * Valor:

3.1.1. Machine Learning: Es una conjunto de IA que usa un algoritmo para analizar data y tomar decisiones inteligentes basado en lo que aprende, sin una programación explicita. Deep Learning is a type of Machine Learning that simulates human decision-making using neural networks.

3.1.1.1. * Entrena con grandes conjuntos de datos. * No sigue reglas basadas en algoritmos. * Aprende de ejemlos.

3.1.1.2. Deep Learning: Es un subconjunto de ML que usa redes neuronales para simular decisiones humanas

3.1.1.2.1. Neural Networks: Toman inspiración de una neurona biologica, pero funcionan un tanto diferente. Aprende a medida que aumentan los datos.

3.1.1.2.2. Utilizada en: * Reconocimiento facial o personas hablando. * Hay grandes librerías que pueden ayudatrte a desarrollar deep learing pero debes conocer lo que se desarrolla internamente. Álgebra.

3.1.1.2.3. Metodologías: Regresión lineal Regresión logística Árboles de decisión Random Forest XGBoost Gradient Boosting Isolation Forest Redes neuronales Support Vector Machines K-Means

3.2. Tools: * Apache SparK * Hadoop

3.2.1. Hadoop: * Big data clousters * Podemos tomar bases de datos enormes para buscar patrones. * Machine Learning - decisions science

4. Data Science & IA

4.1. DS es el proceso y métodos para extraer conocimiento e ideas a partir de grandes volúmenes de datos.

4.2. Involucra, matemáticas, estadística, visualización, ML y más.

4.3. puede ser ML, algoritmos, deep learning models, etc.

4.4. Es un término amplio que involucra todo el proceso y metodologías.

4.5. IA involucra todo lo relacionado a la maquinas para aprender cómo resolver problemas tomando decisiones inteligentes.

4.6. AMBOS IA & DATA SCIENCE PUEDEN UTILIZAR BIG DATA

4.7. ¿cómo comienzan las empresas?: Las empresas necesitan conocer sobre sus clientes y sobre sus ventas, etc. Los datos siempre son relevantes con el tiempo. Algo que no es posible medir es difícil de probar y mejorar. El propósito de un proyecto de DS es comunicar nueva información e ideas a partir del análisis de datos para la toma de decisiones.

5. Django:

5.1. Conceptos Django

5.1.1. pip install Django

5.1.2. Entorno de Trabajo

5.1.2.1. Local

5.1.2.1.1. 1. Una única versión de Django

5.1.2.1.2. 2. Una única versión de Python

5.1.2.1.3. 3. Mismas dependencias para todos los proyectos

5.1.2.2. Virtual

5.1.2.2.1. 1. Varias versiones de Django

5.1.2.2.2. 2. Varias versiones de Python

5.1.2.2.3. 3. Diferentes dependencias para todos los proyectos.

5.1.2.2.4. 4. Igualar entornos de Desarrollo - Pruebas - Produccion

5.1.3. Comandos Importantes

5.1.3.1. django-admin startproject 'nombreProyecto' Para comenzar un proyecto

5.1.3.2. python manage.py help

5.1.3.3. python manage.py migrate

5.1.3.4. python manage.py runserver

5.1.4. Archivos Django

5.1.4.1. manage.py

5.1.4.2. __init__.py

5.1.4.3. asgi.py

5.1.4.4. settings.py

5.1.4.5. urls.py

5.1.4.6. wsgi.py

5.2. Modelo Vista Controlador MVC

5.2.1. Vista

5.2.1.1. Muestra la información al Usuario

5.2.2. Controlador

5.2.2.1. Gestiona las comunicaciones entre la vista y el modelo. (Ej. mysql)

5.2.3. Modelo

5.2.3.1. Se encarga de gestionar los datos: - Obtener info de una base de datos

5.3. Django: Modelo Template Vista MTV

5.3.1. Template (vista)

5.3.2. View ( como Controlador)

5.3.3. Model (como Modelo)

5.4. Comenzar

5.4.1. views.py

5.4.2. urls.py

5.4.3. Plantillas

5.4.3.1. Cadenas de texto

5.4.3.2. Sirven para separar la parte lógica (datos) de la parte visual (presentación) de un documento web

5.4.3.3. Se utilizan de diversas formas, siendo la más habitual: guardar la cadena de texto en un documento independiente y cargado este desde la vista

5.4.3.4. ¿Cómo de usan?

5.4.3.4.1. 1. Creación de objeto de tipo Template: plt=Template(doc_externo.read())

5.4.3.4.2. 2. Creación de Contexto ctx=Context()

5.4.3.4.3. 3. Renderizado de objeto Template: documento=plt.render(ctx)

5.4.3.5. Jerarquía u Orden de llamadas desde plantillas

5.4.3.5.1. 1. DIccionarios

5.4.3.5.2. 2. Atributo

5.4.3.5.3. 3. Método

5.4.3.5.4. 4. Índice de lista

5.4.3.6. Condicionales

5.4.3.7. Filtros

5.4.3.8. Cargadores de Plantilla

5.4.3.8.1. import loader

5.4.3.8.2. En Setting DIR poner la dirección de las plantillas

5.4.3.9. Shortcut

5.4.3.9.1. import django.shortcut import render

5.4.3.10. Plantillas Incrustadas

5.4.3.10.1. {% include "superior/barra.html" %}

5.4.3.11. Herencia de Plantilla

5.4.4. BBDD

5.4.4.1. Proyecto vs Aplicación

5.4.4.2. Clase Model

5.4.4.2.1. python manage.py startapp

5.4.4.3. Asignar tablas a sqlite.

5.4.4.3.1. 1. Genrar codigo sql python manage.py sqlmigrate gestionPedidos

5.4.4.3.2. 2. python manage.py sqlmigrate gestionPedidos 0001

5.4.4.3.3. 3. python manage.py migrate

5.4.4.4. Agregar, modificar o eliminar datos

5.4.4.4.1. python manage.py shell

6. Librerías para Data Science

6.1. Pandas

6.1.1. Importar Data

6.1.1.1. import pandas as pd

6.1.1.2. df = pd.read_csv ('data.csv' ) df = pd.to_csv('nerdata.csv')

6.1.1.2.1. Mostrar Nombre de Columnas list(df.columns)

6.1.2. Exploración de Datos

6.1.2.1. Tipos de Datos

6.1.2.2. df.head() df.tail()

6.1.2.3. df.types

6.1.2.4. df.describe()

6.1.2.5. df.info()

6.1.2.6. df['columna'].value_counts()

6.1.2.7. Select where df3 = df2.loc[df2["unemployment"] > 8.5]

6.1.2.8. df.loc[label] #filters by the labels of the index/column

6.1.2.9. df.iloc[index] #filters by the positions of the index/column

6.1.3. Preprocesamiento de Datos

6.1.3.1. Acceder a una Columan

6.1.3.1.1. df['nombrecolumna']

6.1.3.2. Datos Perdidos

6.1.3.2.1. Eliminar datos perididos

6.1.3.2.2. Reemplazar por un promedio

6.1.3.2.3. Reemplazar por frecuencia

6.1.3.2.4. Reemplazar basado en otras funciones

6.1.3.2.5. Mantener los datos perdidos

6.1.3.3. Resetear index

6.1.3.3.1. df.reset_index(drop=True, inplace=True)

6.1.3.4. Formatos de Datos

6.1.3.4.1. 1. df['horas] = 60*df['horas'] 2. df.rename(columns={"horas":"minutos"}, inplace = True)

6.1.3.4.2. Type de dato incorrecto astype permite dar nuevo formato

6.1.3.5. Normalización de Variable

6.1.3.5.1. Escalada simple

6.1.3.5.2. Min-Max

6.1.3.5.3. Z-score

6.1.3.6. Binning = Categorización

6.1.3.6.1. 1. bins = np.linspace(min(df['price´], max(df['price']), 4) 2. group_names = ["low", "medium", "High"] 3. df["price-binned"] = pd.cut(df["price"], bins, labels=group_names, include_lowest = True )

6.1.3.6.2. One-hot encoding Convertir valores String a int

6.1.4. Análisis de Datos

6.1.4.1. Estadísticos Descriptivos

6.1.4.1.1. df.describe()

6.1.4.1.2. Box plot

6.1.4.1.3. Scatter Plot

6.1.4.2. GroupBy

6.1.4.2.1. 1. df['drive-wheels'].unique()

6.1.4.2.2. df_group_one = df_group_one.groupby(['drive-wheels'],as_index=False).mean()

6.1.4.2.3. grouped_pivot = grouped_test1.pivot(index='drive-wheels',columns='body-style')

6.1.4.2.4. Puedo Crear un mapa de Calor

6.1.4.3. Correlación

6.1.4.3.1. Correlación Estadística

6.1.4.3.2. Correlación NO IMPLICA Causa

6.1.4.4. Análisis de Varianza (ANOVA)

6.1.4.4.1. # ANOVA f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.get_group('rwd')['price'], grouped_test2.get_group('4wd')['price']) print( "ANOVA results: F=", f_val, ", P =", p_val)

6.1.4.5. Desarrollo de Modelo

6.1.4.5.1. Regresión simple

6.1.4.5.2. Regresión Multiple

6.1.4.5.3. Regresión Polinomial

6.1.4.5.4. Eficiencia de Modelo

6.1.4.6. Evaluación de Modelo

6.1.4.6.1. Data Train

6.1.4.6.2. Data Test

6.1.4.6.3. Sobreajuste

6.1.4.6.4. Subajuste

6.1.4.6.5. Ridge Regression

6.1.5. Select where df3 = df2.loc[df2["unemployment"] > 8.5]

6.2. Visualización de Datos

6.2.1. Matplotlib

6.2.1.1. Creada por John Hunter (1968 - 2012)

6.2.1.2. Gráficos

6.2.1.2.1. Mapas

6.3. Machine Learning

6.3.1. Scikit-learn

6.3.1.1. Supervised

6.3.1.1.1. Classification: Classifies labeled data

6.3.1.1.2. Regression: predicts trends using previous labeled data

6.3.1.2. Unsupervised learning

6.3.1.2.1. Clustering: find patterns and groupings from unlabeled data

6.3.1.3. Métodos

6.3.1.3.1. Simple Linear Regression

6.3.1.3.2. Clasificación

6.3.1.3.3. Árboles de Decisión

6.3.1.3.4. Logistic Regression

6.3.1.3.5. SVM Support Vector Machine

6.3.1.3.6. Clustering

6.3.1.3.7. Recommender Systems

6.4. Numpy

6.4.1. import numpy as np

6.4.2. x = a.np.array(lista)

6.4.3. a.size

6.4.4. a.ndim

6.4.5. a.mean

6.4.6. a.max

6.4.7. np.pi

6.4.8. np.linspace

6.4.9. np.dot

6.4.10. Plotvec2(a,b)

6.4.11. a.T

6.5. Matplotlib

6.6. from scipy import stats

7. Access Databases Using PYTHON

7.1. Application or Databases

7.2. SQL API

7.3. Esquema

7.4. Python Librerías para conección

7.4.1. ibm_db

7.4.2. ipython_sql

8. Lenguaje de Programación Utilizados en Data Science

8.1. Más Usados

8.1.1. Python

8.1.1.1. Used: Data Science AI ML Web development Internet of Thing (IoT) (Raspberry Pi)

8.1.1.1.1. Scientific computer: Pandas, NumPy, SciPy, Matplotlib

8.1.1.1.2. IA: PyTorch TensorFlow Keras Scikit-learn

8.1.1.1.3. Puede ser usado por su lenguaje natural: Natural lenguaje Processing (NLP) usando el Natural Lenguage Toolkit (NLTK)

8.1.2. R

8.1.2.1. Free Software El mayor repositorio de conocimiento estadístico.

8.1.3. SQL

8.1.3.1. Structure query Lenguage Utilizado para manejar datos estructurados, relacionando variables y entidades.

8.1.3.1.1. DB2 Firebird HSQL Informix InterBase MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL PervasiveSQL SQLite Sybase ASE

8.2. Otros

8.2.1. Java

8.2.1.1. Orientado a objetos Diseñado para ser rápido y escalable Java app se compilan con bytecode y corren en JVM

8.2.1.1.1. Weka (data mining) Java-ML (ml library) Apache MLlib (scalable ml) Deeplearning4j HADOOP big data

8.2.2. Scala

8.2.2.1. Programas Funcionales Extensión de Java, tb corre JVM Scalable Lenguage

8.2.2.1.1. Para DC: Spark - motor analitico para procesar big data, sql , ML, gráficos... - Shark, Mlib, GraphX, Spark Streaming

8.2.3. C++

8.2.3.1. extensión de C Velocidad de procesamiento de datos Muchas empresas lo usan para app en tiempo real

8.2.3.1.1. Para DC: TensorFlow es una librería para Deep Learning MongoDB es una NoSQL base de datos para gestionar big data Caffe es una algoritmo para deep learning

8.2.4. JavaScript

8.2.4.1. Tecnología para web, su proposito general es extender las capacidades de un navegador con Node.js para otros objetivos.

8.2.4.1.1. Para DC: TensorFlow.js para ML y DL con Node.js Brain.js - machinelear.js R-js algebra lineal Typescript

8.2.5. Julia

8.2.5.1. Diseñado por MIT para análisis numérico y ciencia computacional Rápido desarrollo como python o R, llegando a producir programas tan rápidos como C. Compilado con llamadas a C, Go, Java, MATLAB, R; Fortran, Python librerías Lenguaje joven

8.2.5.1.1. Para DC: JuliaDB

9. Instalación: Anaconda Navigator pip para instalar paquetes

10. Data Analysis IBM: * Todo tiene datos. * Nos ayuda a encontrar respuestas desde nuestros datos.

10.1. Librerías

10.1.1. Informática científica

10.1.1.1. Pandas: Data Stuctures (Data Frame) & tools

10.1.1.1.1. Import Data: 2 importantes propiedades: * Format: csv, json, xlsx,hdf * File Path of dataset: - Computer: /Desktop/mydata.csv - Internet: https://archive.ics.uci....

10.1.1.2. SciPy: Integrales, resolver ecuaciones diferencias, Oprimización

10.1.1.3. Numpy: Vectores y Matrices

10.1.2. Visualización: Utilizadas para mostrar nuestro análisis

10.1.2.1. Matplotlib: Plots & gráficos, más popular

10.1.2.2. Seaborn: plots: heat maps, time series, violin plots

10.1.2.3. Ggplots2 utilizada en R

10.1.3. Algorítmica: Crear modelos predictivos

10.1.3.1. Scikit-learn: Machine Learning : regressión, classification...)

10.1.3.1.1. Machine Learning: supervisados no supervisados reinforcement

10.1.3.1.2. Deep Leaning: Trata de emular el funcionamiento del cerebro humano

10.1.3.2. Statsmodels: Explote data, estimate statistical models, and performs statistical test

10.2. IA

10.2.1. PyTorch

10.2.2. TensorFlow

10.2.3. Keras

10.2.4. Scikit-learn

10.3. API

10.3.1. Your Program----- API----input -data- output Other Software Component

10.4. Data Set

10.4.1. Collection of data Data Structurada Ejemplo Csv

10.4.1.1. Private Data: Confidencial Provada o información personal Sensiblemente Comercial

10.4.1.2. Public Data: instituciones científicas gobierno organizaciones compañías

10.4.1.2.1. Open Souce: datacatalogs data.un.org data.gov europeandataportal Kaggle google data serch

11. Data Science Tools

11.1. Herramientas de Data Science: Fully Integrated visual tools Execution environments Data Asset Management Data Managment Data Ingretacion and Transformation Data Visualization Model Bulding Model Deployment Model Monitoring and Assessment Code Asset Management Development Enviroments (IDE)

11.1.1. Data Management

11.1.1.1. * MySQL and PostgreSQL no SQL databases such as MongoDB apache couchdb and apache cassandra and file based tools such as the Hadoop file system or cloud file systems like SEF Oracle Database Microsoft SQL server IBM DB2

11.1.2. Data Ingegration and Transformation

11.1.2.1. Apache airflow originally created by Airbnb cube flow which enables you to execute data science pipelines on top of kubernetes Apache Kafka which originated from LinkedIn Apache NiFi I which delivers a very nice visual editor Apache sparks SQL which enables you to use ANSI SQL and scales up to compute clusters of thousands of nodes and node read which also provides a visual editor node read consumes so little in resources that it even runs on small devices like a Raspberry Pi will now ETL Informatica IBM Infoshere DataStage Talend IBM Watson Studio Desktop

11.1.3. Data Visualization

11.1.3.1. Hue kibana Superset Tableau Power BI IBM Cognos Analytics IBM Watson Studio Desktop

11.1.4. Model Building

11.1.4.1. SPSS Modeler SAS IBM Watson Studio Desktop

11.1.5. Model Deployment

11.1.5.1. PredictionIO Seldon ( mleap TensorFLow Service TensorFlow Lite

11.1.6. Model Monitoring and Assessment

11.1.6.1. ModelDB un sistema para gestionar ML modelos Prometheus IBM Research Trusted AI Adversarial Robustness 360 Toolbox AI Explainability 360

11.1.7. Code Asset Management

11.1.7.1. Github git Gitlab Bitbucket Binstalks

11.1.7.1.1. GitHub: Ofrece un control de versión. Tutoriales try.github.io

11.1.7.1.2. Comandos Básicos

11.1.8. Data Asset Management

11.1.8.1. APache Atlas Egeria (open) Kylo Informatica IBM InfoSphere

11.1.9. Development Enviroments

11.1.9.1. Jupyter Notebook Jupyter lab (más moderno ) Apache Zeppelin R Studio Spyder (Python)

11.1.9.1.1. Jupyter Notebook

11.1.10. Execution environments

11.1.10.1. Apache Spark Apache Flink (enfocado en real time) Rieselab Ray (deep Model)

11.1.11. Fully Integrated visual tools * D ingr and transf * D Visualization * Model Buildin

11.1.11.1. Knime (R, python, apache) Orange (fácil de usar)

11.1.12. Cloud Based Tools for data Science

11.1.12.1. IBM WS Azure H2O.ai

11.1.12.1.1. Watson Studio

11.1.12.2. Data Managment: Amazon DynamoDB NoSqL DB Cloudant CouchDB relax IBM db2

11.1.12.3. Data Ingration and Trans: Informatica IBM Refinery

11.1.12.4. Data Visualization: Datameer IBM Cognos Analytics (WS)

11.1.12.5. Model Building: IBM W ML Google Cloud

11.1.12.6. Model Deployment IBM SPSS MODELER

11.1.12.7. Model Monitoring and assessment: aws Amazon SageMaker Model Monitor Watson OpenSacale

12. Data Science Methodology

12.1. CRISP-DM: Consta de 7 Pasos

12.1.1. 1. Business Understanding

12.1.2. 1.1 Analytic Approach

12.1.3. 1.2 Data Requirements

12.1.4. 1.3 Data Collection

12.1.5. 2. Data Understanding

12.1.5.1. Estadísticos Descritivos: Histogramas, etc

12.1.5.2. Data quiality

12.1.5.2.1. Missing Values

12.1.5.2.2. Invalid

12.1.5.2.3. Misleading Values

12.1.6. 3. Data Preparation

12.1.6.1. Cleansing data: Uno de los que más demanda tiempo

12.1.7. 4. Modeling

12.1.7.1. Predictive Model

12.1.7.2. Descriptive

12.1.7.3. Cost Study Roc curve

12.1.7.3.1. Training data set

12.1.7.3.2. Test data set

12.1.8. 5. Evaluation

12.1.9. 6. Deployment

12.1.10. 7. Feedback

12.2. Decision Three

13. SQL DataBases

13.1. Utlizado para Crear y administrar bases de datos. DB = repositorio de datos. hay diferentes formas de DB con diferentes tipos de datos.

13.2. Db2 Warehouse on Cloud

13.2.1. Permite acceder a datos desde una nube. fácil de usar. Escalable. Respaldo de información.

13.3. Comando Basicos

13.3.1. Create

13.3.1.1. DDL data definition lenguare DML data manipulation lenguage

13.3.1.1.1. SELECT * FROM DB1

13.3.1.1.2. WHERE

13.3.1.1.3. COUNT

13.3.1.1.4. DISTINCT

13.3.1.1.5. TOP( ) sql server LIMIT mysql ROWNUM oracle

13.3.1.1.6. INSERT

13.3.1.1.7. UPDATE

13.3.1.1.8. DELETE

13.3.1.1.9. LIKE

13.3.1.1.10. AND

13.3.1.1.11. BETWEEN

13.3.1.1.12. OR

13.3.1.1.13. ORDER BY

13.3.1.1.14. GROUP BY

13.3.1.1.15. HAVING

13.3.1.1.16. AS

13.3.2. insert

13.3.3. SELECT

13.3.3.1. STRING

13.3.3.1.1. LEFT

13.3.3.1.2. RIGHT

13.3.3.1.3. LEN (column)

13.3.3.1.4. CHARINDEX( ' ' , column )

13.3.3.1.5. REPLACE ( 'x' , ' ', ' ' )

13.3.3.1.6. SUBSTRING(string, start, length)

13.3.4. update

13.3.5. delete

13.4. Information Model

13.4.1. Modelo Entidad Relación

13.4.1.1. Entidad

13.4.1.2. Atributo

13.4.1.3. Relación

13.4.1.3.1. Grado = n° de atributos en una relación o columnas

13.4.1.3.2. Cardinalidad = n° de tuplas o filas

13.4.1.3.3. Esquema de relación

13.4.1.4. Llave Primaria

13.4.1.5. Llave Foranea

13.4.1.6. Integridad Semántica int - chart etc.

13.4.1.7. Restricciones Semánticas

13.5. Data Model

13.6. Funciones

13.6.1. SUM ( )

13.6.2. MAX ( )

13.6.3. MIN ( )

13.6.4. AVG ( )

13.6.5. ROUND ( )

13.6.6. LENGTH ( )

13.6.7. UCASE ( )

13.6.8. LCASE ( )

13.6.9. DATE

13.6.9.1. YYYYMMDD

13.6.9.2. Funciones para extraer cierto date

13.6.9.3. CURRENT_DATE

13.6.10. TIME

13.6.10.1. HHMMSS

13.6.10.2. CURRENT_TIME

13.6.11. TIMESTAMP

13.6.11.1. YYYYXXDDHHMMSSZZZZZZ

13.7. SUB - CONSULTAS

13.8. MULTIPLES TABLES

13.8.1. SUB QUERIES

13.8.2. JOIN

13.8.2.1. INNER JOIN

13.8.2.2. OUTER JOIN

13.8.2.2.1. LEFT OUTER JOIN

13.8.2.2.2. RIGHT OUTER JOIN

13.8.2.2.3. FULL OUTER JOIN

14. BIG DATA

14.1. Tecnologías Cloud

14.1.1. On premises

14.1.2. Infraestructura como Servicio (IaaS)

14.1.3. Plataforma como Servicio (PaaS)

14.1.4. Software como Servicio (SaaS)

14.2. Spark

14.2.1. Procesamiento Streaming

14.2.1.1. Apache Kafka

14.2.1.2. Apache Flink

14.3. Hadoop

14.3.1. Principal tecnología BD. Su funcionamiento se basa en el concepto de procesamiento distribuido.

14.4. IA

14.5. 5 V

14.5.1. Volumen

14.5.2. Variedad

14.5.3. Velocidad

14.5.4. Veracidad

14.5.5. Valor

14.6. Data Science

14.6.1. Computer Science IT

14.6.2. Math and Statistics

14.6.3. Domains / Business Knowledge

14.7. Top Algoritmos

14.7.1. ¿Qué Tipo de datos vas a analizar

14.7.1.1. 1. Estructurado

14.7.1.1.1. Reducir Dimensionalidad

14.7.1.1.2. Analizar dimensión social

14.7.1.1.3. Predecir algo

14.7.1.1.4. Agrupar / Segmentar

14.7.1.2. 2. No Estructurados

14.7.1.2.1. Texto

14.7.1.2.2. Video / Imagen

15. Scala

15.1. Ventajas: Conciso. Elegante Tipado Estático Compila contra la JVM y compatible con Java Es de los más valorados.

15.2. Suiza 2003 Martin Odersky