1. conjunto de informações
2. lida com quantidade muito grande de dados
3. banco de dados
3.1. coleção de dados inter-relacionadas
3.2. conjunto de informações armazenadas em um lugar para posterior consulta
3.3. Big Data
3.3.1. grande conj de dados estruturados ou não
3.3.2. gerados por diversas fontes
3.3.3. precisam de métodos não tradicionais para armazenamento e processamento
3.3.4. permite que essas informações sejam cruzadas para gerar insights
3.3.5. Vs do Big Data
3.3.5.1. volume
3.3.5.1.1. qt de dados gerados
3.3.5.2. variedade
3.3.5.2.1. dados e coletas diferentes
3.3.5.3. velocidade
3.3.5.3.1. criação/ analise/ armazenamento
3.3.5.4. veracidade
3.3.5.4.1. qualidade dos dados
3.3.5.5. valor
3.3.5.5.1. valor da informação
3.3.6. desafios do BIG DATA
3.3.6.1. coleta de dados
3.3.6.1.1. tecnicas diferentes
3.3.6.2. processamento de dados
3.3.6.3. qualidade dos dados
3.3.6.4. empresa não conhece todos os dados
3.3.6.5. mão de obra qualificada
3.3.6.6. análise de dados
3.3.7. BIG DATA Vs Data Science
3.3.7.1. profissional Big Data
3.3.7.1.1. coleta
3.3.7.1.2. armazena
3.3.7.1.3. gerencia grande volumes de dados
3.3.7.2. profissional Data Science
3.3.7.2.1. extrai
3.3.7.2.2. analisa
3.3.7.2.3. gera informação para a tomada de decisão
3.3.7.2.4. perfil
3.3.7.2.5. dia a dia de um Data Science
3.3.7.2.6. analise de dados do Data Science
3.4. Data Science
3.4.1. area interdisciplinar
3.4.1.1. computação
3.4.1.2. matematica
3.4.1.3. estatistica
3.4.1.4. conhecimento do negocio
3.4.2. analise de dados
3.4.2.1. econômicos
3.4.2.2. financeiros
3.4.2.3. sociais
3.4.2.4. estruturados ou não estruturados
3.4.3. extração de conhecimento
3.4.3.1. tomada de decisão
3.4.3.2. aplicação comuns
3.4.3.2.1. predição de demanda
3.4.3.2.2. logistica
3.4.3.2.3. sistema de recomendação de produtos
3.4.3.2.4. detecção de fraudes
3.4.3.2.5. sistema de busca inteligente
3.4.3.2.6. otimização de campanhas
3.4.4. DATA BUZZWORDS
3.4.4.1. IA - maquina realizando tarefas de maneiras inteligente
3.4.4.1.1. machine learning - subárea de IA - utiliza algoritmos para determinar padroes
3.5. linguagem utilizada
3.5.1. PYTHON
3.5.1.1. 1991
3.5.1.2. Guido Van Rossem
3.5.1.3. sintaxe concisa e clara
3.5.1.4. simples e facil
3.5.1.5. case sensível a letras maiúsculas e minúsculas
3.5.1.6. linguagem de alto nível
3.5.1.7. tipagem dinâmica e forte
3.5.1.8. pacotes exclusivos para ciência de dados
3.5.1.8.1. Numpy
3.5.1.8.2. Panda
3.5.1.8.3. Scikit-learn
3.5.2. SQL
3.5.2.1. sequel
3.5.2.2. ibm
3.5.2.3. criado para padronizar a forma de acessar e manipular dados
3.5.2.4. tipos de comando da linguagem SQL
3.5.2.4.1. DDL- definição de dados
3.5.2.4.2. DQL - consulta de dados
3.5.2.4.3. DML- Manipulação de dados
3.5.2.4.4. DCL- controle de dados
3.5.2.4.5. TCL- transacional
3.6. SGBD - sistema gerenciador de banco de dados
3.6.1. software para interação com bancos de dados
3.6.2. possui uma interface de gerenciamento e consulta
3.6.3. possui um padrão de comunicação
3.6.4. MySQL
3.6.5. Oracle
3.6.6. SQL Server
3.7. modelos básicos de representação de dados
3.7.1. decada de 60
3.7.2. modelo plano ou tubular
3.7.3. modelo em rede
3.7.4. modelo hierarquico
3.7.5. problemas
3.7.5.1. dados não eram escalonável
3.7.5.2. consulta precisam ser definidas previamente
3.8. banco de dados relacionais
3.8.1. criado na década de 70, usado mesmo na década de 80
3.8.2. conceito : tabelas estrutura dados entre si
3.8.3. relaciona dados de diferentes tabelas
3.8.4. hierarquia de banco de dados
3.8.4.1. temos SCHEMA
3.8.4.1.1. combinação de tabelas com domínio de dados relacionados
3.9. banco de dados não relacionais
3.9.1. NoSQL
3.9.2. armazena dados que nem sempre podem ser encaixado em uma tabela
3.9.3. dados semi-estruturados
3.9.4. sec XXI com a Web 2.0
3.9.5. conceito: documentos que codificam dados em alguns formato padrão
3.9.5.1. XML
3.9.5.2. Json
3.9.6. registra atributos por meio de chave e valor
3.9.7. hierarquia de banco de dados
3.9.7.1. temos Coleção de documentos
3.9.7.1.1. registra atributos e dados que vamos consultar