Fuentes de Datos

Actividad 1 Mapa Conceptual Fuente de DatosMaestría Ciencia de DatosUniversidad del Valle de México

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
Fuentes de Datos por Mind Map: Fuentes de Datos

1. Web

1.1. Fuentes de Información dentro de la WEB

1.1.1. Localizacion

1.1.2. Imagenes / Videos

1.1.3. Email

1.1.4. Click Stream

1.1.5. HTML

1.1.6. Sensores

1.1.7. Redes Sociales

1.1.7.1. Facebook

1.1.7.2. Twitter

1.1.7.3. Instragram

1.1.7.4. Snapchat

1.1.7.5. WhatsApp

1.1.7.6. Google +

1.1.7.7. Pinterest

1.1.7.8. YouTube

1.1.7.9. LinkedIn

1.2. Extracción de Datos

1.2.1. Web Scraping

1.2.1.1. ¿Qué es?

1.2.1.1.1. Es una técnica utilizada mediante programas de software para extraer información de sitios web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda.

1.2.1.2. Para qué sirve el web scraping

1.2.1.2.1. Agregadores de contenido

1.2.1.2.2. Reputación online

1.2.1.2.3. Caza de tendencias (cool hunting)

1.2.1.2.4. Optimización de precios

1.2.1.2.5. Monitorización de la competencia

1.2.1.2.6. Optimización ecommerce

1.2.1.2.7. Google Search Analysis

1.2.2. Web Crawler

1.2.2.1. ¿Qué es?

1.2.2.1.1. El crawler, también conocido como araña de la web, es un software o webbot que se encarga de recorrer los enlaces de las páginas webs de una forma automática y sistemática.

1.2.2.2. ¿Qué hace un crawler y como funciona?

1.2.2.2.1. Normalmente, un crawler dispone de un conjunto inicial de URLs, conocidas como semillas, y va descargando las páginas Web asociadas a las semillas y buscando dentro de éstas otras URLs. Cada nueva URL encontrada se añade a la lista de URLs que la araña Web debe visitar. Es decir, recoleta URL’s para posteriormente procesarlas. Así, el motor de búsqueda creará un índice de las páginas descargadas para proporcionar búsquedas más rápidas. Cuando un crawler visita un sitio web opta por una de estas dos alternativas: - Buscar el archivo robots.txt y la meta etiqueta robots para ver las reglas que se han estipulado. - Elaborar un índice de las páginas web que hay en su sitio. ¿Cómo? Explorando el contenido del texto visible, de varias etiquetas HTML y los hipervínculos en listados en la página.

2. Big Data

2.1. Las Vs – Características de los Datos

2.1.1. Veracidad

2.1.1.1. La calidad y valor de los datos, puede variar entre conjuntos de datos afectando los análisis y la capacidad de generar conocimiento relevante.

2.1.2. Volumen

2.1.2.1. La cantidad de datos generados y almacenados. El tamaño de los datos determina el valor y potencial de información útil, y si puede considerarse como big data o no.

2.1.3. Variedad

2.1.3.1. El tipo y naturaleza de los datos. Texto, imágenes, audio, video, fusión de datos para cubrir datos faltantes. En la variedad esta su capacidad de generar valor (información y conocimiento).

2.1.4. Velocidad

2.1.4.1. La velocidad con que se generan los datos y se procesan para cubrir los requerimientos de las organizaciones. En el caso de Big data es disponible en tiempo real, donde la frecuencia de generación y procesado pueden ser diferentes.

2.1.5. Viabilidad

2.1.5.1. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.

2.1.6. Visualización

2.1.6.1. Nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar.

2.1.7. Valor

2.1.7.1. El valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este en acción o en decisión.

2.2. Gerneradores de Datos

2.2.1. Bases de Datos

2.2.2. Documentacion Legal

2.2.3. Media

2.2.4. Nubes o Almacenes de Datos Vituales

2.2.5. Redes Sociales

2.2.5.1. Facebook

2.2.5.2. Twitter

2.2.5.3. Instragram

2.2.5.4. Snapchat

2.2.5.5. WhatsApp

2.2.5.6. Google +

2.2.5.7. Pinterest

2.2.5.8. YouTube

2.2.5.9. LinkedIn

2.2.6. Aplicaciones de Data Warehouse

2.2.7. Datos Generados de la Actividad

2.2.8. Web

3. Ecosistema Digital

3.1. Contenido

3.1.1. Publicidad

3.1.2. Peliculas y Entretenimiento

3.1.3. Publicaciones, Información y Noticias

3.2. Sistemas de Software

3.2.1. ERP

3.2.2. CRM

3.2.3. SCM, etc.

3.3. Hardware

3.3.1. Equipo de Comunicacion

3.3.2. Equipo de Computo

3.3.3. Sistemas de Seguridad

3.3.4. Intranet

3.3.5. Equipos Moviles

3.4. Network

3.4.1. Compañias de Cable

3.4.2. Compañias de Internet

3.4.3. Información Satelital

3.4.4. Servicios de Telecomunicaciones

3.5. Servicios

3.5.1. Profesionales de Servicios

3.5.2. Consultoria y Servicios de Soporte IT

3.5.3. Servicios e Infraestructura IT

4. Dentro de una Organización

4.1. Fuentes internas

4.1.1. Call Center (Internos)

4.1.1.1. Si la empresa u organización brinda un servicio, es muy posible que cuente con un Call Center, ya que a través de este puede dar atención a clientes tanto internos como externos, y se convierte en una buena fuente de información.

4.1.2. Documentos Internos

4.1.2.1. ¿Qué es?

4.1.2.1.1. Los documentos internos son aquellos utilizados dentro de la empresa y sirven para tomar ciertas decisiones.

4.1.2.2. Ejemplos

4.1.2.2.1. - Reportes - Listas de Precios - Actas - Facturación, etc.

4.1.3. Modulos Corporativos ERP

4.1.3.1. ¿Qué es?

4.1.3.1.1. El término ERP se refiere a Enterprise Resource Planning, que significa “sistema de planificación de recursos empresariales”. Estos programas se hacen cargo de distintas operaciones internas de una empresa, desde producción a distribución o incluso recursos humanos.

4.1.3.2. Ventajas:

4.1.3.2.1. - Automatización de procesos de la empresa. - Disponibilidad de la información de la empresa en una misma plataforma. - Integración de las distintas bases de datos de una compañía en un solo programa. - Ahorro de tiempo y costos. - Ofrecen integración con soluciones de BI o Business Intelligence, permitiendo realizar informes sobre el estado de su empresa directamente con los datos del sistema ERP. Esto ofrece un nivel de conocimiento detallado y actualizado del estado de la empresa que resulta indispensable a la hora de analizar y mejorar procesos internos como el marketing y ventas, la organización u otros aspectos clave de una compañía.

4.1.4. Sensores o Controladores

4.1.4.1. ¿Qué es?

4.1.4.1.1. Si la empresa u organización realiza procesos de producción o manufactura, a través de los sensores o controladores generara datos relevantes para sus procesos.

4.1.5. Web Site

4.1.5.1. Si la empresa u organización cuenta con una pagina web, esta también será una fuente de datos importante.

4.2. Fuentes Externas

4.2.1. Redes Sociales

4.2.1.1. ¿Qué es?

4.2.1.1.1. Todas las redes sociales que la empresa maneje nos generaran datos, así como tendencias, preferencias, etc.

4.2.1.2. Ejemplo:

4.2.1.2.1. Facebook

4.2.1.2.2. Twitter

4.2.1.2.3. Instagram

4.2.1.2.4. Snapchat

4.2.1.2.5. Google +

4.2.1.2.6. You Tube

4.2.1.2.7. WhatsApp

4.2.1.2.8. Pinterest

4.2.1.2.9. LinkedIn

4.2.2. Estadisticas Oficiales

4.2.2.1. Paginas Web Gubernamentales

4.2.2.2. INEGI

4.2.2.3. Organizacines de Estadistica.

4.2.3. Páginas Institucionales de Servicios y Pronósticos

4.2.3.1. - Servicio Meteorológico Nacional - Servicio Sismológico Nacional

4.2.4. Conjuntos de Datos Publicos Disponibles

4.2.4.1. Los datos públicos son información que puede ser utilizada, reutilizada y redistribuida libremente por cualquier persona que no tenga restricciones legales locales, nacionales o internacionales de acceso o uso.