BASES DE DATOS BIOLÓGICAS

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
BASES DE DATOS BIOLÓGICAS por Mind Map: BASES DE DATOS BIOLÓGICAS

1. EMBL (Biblioteca de Datos del Laboratorio Europeo de Biología Molecular )

1.1. Proporciona un registro completo de la información de secuenciación de nucleótidos.

1.1.1. Recursos de datos

1.1.1.1. Ensembl

1.1.1.1.1. Navegador de genoma, API y base de datos, que proporciona acceso a la anotación del genoma de referencia

1.1.1.2. UniProt

1.1.1.2.1. Un recurso integral para la secuencia de proteínas y la anotación funcional.

1.1.1.3. PDBe

1.1.1.3.1. El recurso europeo para la recopilación, organización y difusión de datos estructurales 3D (de PDB y EMDB) sobre macromoléculas biológicas y sus complejos.

1.1.1.4. Europa PMC

1.1.1.4.1. Una base de datos para buscar en la literatura mundial de ciencias de la vida.

1.1.1.5. Atlas de expresion

1.1.1.5.1. Una base de datos de valor agregado que muestra qué genes / proteínas se expresan en qué condiciones y cómo difiere la expresión entre las condiciones.

1.1.2. Investigación

1.1.2.1. El Instituto Europeo de Bioinformática ha liderado la investigación en biología computacional desde su inicio en 1994, con métodos de análisis de secuencia que abarcan, análisis estadísticos multidimensionales y descubrimiento biológico basado en datos, desde biología de plantas hasta desarrollo y enfermedades en mamíferos.

1.1.3. Formación

1.1.3.1. Formamos a científicos en todos los niveles para aprovechar al máximo los datos biológicos disponibles públicamente.

1.1.4. Herramientas

1.1.4.1. Omega Clustal

1.1.4.1.1. Alineación de secuencias múltiples de secuencias de ADN o proteínas.

1.1.4.2. InterProScan

1.1.4.2.1. Busca secuencias contra las firmas de proteínas predictivas de InterPro.

1.1.4.3. BLAST [proteína]

1.1.4.3.1. Rápida herramienta de búsqueda de similitud local para bases de datos de secuencias de proteínas.

1.1.4.4. BLAST [nucleótido]

1.1.4.4.1. Rápida herramienta de búsqueda de similitud local para bases de datos de secuencias de nucleótidos.

1.1.4.5. HMMER

1.1.4.5.1. Búsquedas de homología de proteínas rápidas y sensibles que utilizan modelos de Markov (HMM) ocultos en el perfil para realizar consultas con bases de datos de secuencia y de HMM.

1.1.5. Industria

1.1.5.1. Las compañías miembros representan a la mayoría de las 20 compañías farmacéuticas principales, así como a varias de las principales compañías agroalimentarias, nutricionales y de salud.

1.1.5.2. Una parte importante de la misión de EMBL-EBI es difundir tecnologías de vanguardia a la industria. Alrededor del 20% de nuestros usuarios participan en actividades de investigación y desarrollo industrial y nuestros servicios evolucionan constantemente para reflejar las necesidades rápidamente cambiantes de este sector crucial.

1.1.5.2.1. bEl programa industrial EMBL-EBI

2. GenBank

2.1. es una base de datos compuesta por la mayoría secuencias públicas conocidas de ADN y proteínas. Además de almacenar estas secuencias, GenBank contiene anotaciones bibliográficas y biológicas.Cantidad de datos de secuencia: La secuenciación de la próxima generación implica la generación de cantidades masivas de datos de secuencia, como 1 billón de bases (1 Gb) en un solo experimento que se completa en cuestión de días.

2.1.1. INTRODUCCIÓN A LAS BASES DE DATOS BIOLÓGICOS

2.1.1.1. Todos los organismos vivos se caracterizan por la capacidad de reproducirse y evolucionar. El genoma de un organismo se define como la colección de ADN dentro de ese organismo, incluido el conjunto de genes que codifican proteínas. En 1995 se secuenció por primera vez el genoma completo de un organismo de vida libre, la bacteria Haemophilus influenzae. Los bancos de datos disponibles al público ahora contienen miles de millones de nucleótidos de datos de secuencias de ADN recopilados de más de 260,000 organismos diferentes.

2.1.2. Cantidad de datos de secuencia

2.1.2.1. Actualmente contiene alrededor de 100 mil millones de nucleótidos de 100 millones de secuencias

2.1.3. Organismos en GenBank

2.1.3.1. Más de 260,000 especies diferentes están representadas en GenBank, con más de 1000 nuevas especies agregadas por mes

2.1.4. Códigos que se utilizan para designar las divisiones de archivos de datos:

2.1.4.1. 1. PRI: secuencias de primates 2. ROD: secuencias de roedores 3. MAM: otras secuencias de mamíferos 4. VRT: otras secuencias de vertebrados 5. INV: secuencias de invertebrados 6. PLN: secuencias de plantas, hongos y algas 7. BCT: secuencias bacterianas 8. VRL: secuencias virales 9. PHG: secuencias de bacteriófagos. 10. SYN: secuencias sintéticas 11. UNA: secuencias sin anotar 12. EST: secuencias EST (etiquetas de secuencia expresadas) 13. PAT: secuencias de patentes 14. STS: secuencias de STS (sitios marcados según la secuencia) 15. GSS: secuencias GSS (secuencias de estudio del genoma) 16. HTG: secuencias HTGS (secuencias genómicas de alto rendimiento) 17. HTC: secuencias de HTC (secuencias de cDNA de alto rendimiento) 18. ENV: secuencias de muestreo ambiental.

2.1.5. Tipos de datos en GenBank

2.1.5.1. Bases de datos de ADN genómico

2.1.5.1.1. La globina beta es parte de un cromosoma, puede ser parte de un gran fragmento de ADN, como un cósmido, un cromosoma artificial bacteriano (BAC) o un cromosoma artificial de levadura (YAC) que puede contener varios genes.

2.1.5.1.2. Está presente en las bases de datos como un gen (el gen es la unidad funcional de la herencia )y es una secuencia de ADN que típicamente consiste en regiones reguladoras, exones codificadores de proteínas e intrones

2.1.5.1.3. Está presente como un sitio etiquetado en secuencia (STS), es decir, como un pequeño fragmento de ADN (generalmente de 500 pb de longitud) que se usa para vincular mapas genéticos y físicos y que forma parte de una base de datos de sitios etiquetados en secuencia (dbSTS).

2.1.5.2. Bases de Datos de ADNc Correspondientes a Genes Expresados

2.1.5.2.1. La globina beta se representa en las bases de datos como una etiqueta de secuencia expresada (EST), es decir, una secuencia de ADNc derivada de una biblioteca de ADNc particular. Si uno obtiene un tejido como el hígado, purifica el ARN y luego convierte el ARN en una forma más estable de ADNc, es probable que algunos de los clones de ADNc contenidos en ese ADNc codifiquen beta globina.

2.1.5.3. Etiquetas de secuencia expresada (ESTs)

2.1.5.3.1. Es una división de GenBank que contiene datos de secuencia y otra información sobre secuencias de cDNA de "un solo paso" de varios organismos.

2.1.5.3.2. Una EST es una secuencia parcial de ADN de un clon de ADNc. Todos los clones de ADNc, y por lo tanto todos los EST, se derivan de alguna fuente de ARN específica como el cerebro humano o el hígado de rata.

2.1.5.3.3. El ARN se convierte en una forma más estable, el ADNc, que luego se puede empaquetar en una biblioteca de ADNc

2.1.5.3.4. Los EST son típicamente clones de cDNA seleccionados al azar que se secuencian en una cadena (y por lo tanto pueden tener una tasa de error de secuenciación relativamente alta)

2.1.6. ESTs y UniGene

2.1.6.1. Crear agrupaciones orientadas a genes mediante la partición automática de los EST en conjuntos no redundantes.

2.1.7. Sitios etiquetados de secuencia (STS)

2.1.7.1. Es un sitio NCBI que contiene STS, que son secuencias de puntos de referencia genómicas cortas para las cuales se dispone de datos de secuencias de ADN y datos de mapeo

2.1.8. Secuencias de la encuesta del genoma (GSSs)

2.1.8.1. La división GSS de GenBank es similar a la división EST, excepto que sus secuencias son de origen genómico, en lugar de ADNc (ARNm).

2.1.9. tipos de datos

2.1.9.1. •Secuencias de estudio aleatorias del genoma de "lectura de un solo paso" •Secuencias finales de Cosmid / BAC / YAC •Secuencias genómicas atrapadas en el exón •Las secuencias de la reacción en cadena de la polimerasa Alu (PCR)

2.1.10. Secuencia genómica de alto rendimiento (HTGS)

2.1.10.1. Bases de datos de proteínas

2.1.10.1.1. El nombre de globina beta puede referirse al ADN, el ARN o la proteína. Como proteína, la globina beta está presente en bases de datos como la base de datos no redundante (nr) de GenBank, la base de datos SwissProt, UniProt y Protein Data Bank.

2.1.10.1.2. La división HTGS se creó para que los datos de secuencias genómicas "sin terminar" estén rápidamente disponibles para la comunidad científica.

2.1.10.1.3. La división HTGS contiene secuencias de ADN sin terminar generadas por los centros de secuenciación de alto rendimiento.

2.1.11. CENTRO NACIONAL DE INFORMACION DE BIOTECNOLOGIA.

2.1.11.1. Introducción a NCBI: Página de Inicio

2.1.11.1.1. El NCBI crea bases de datos públicas, realiza investigaciones en biología computacional, desarrolla herramientas de software para analizar datos genómicos y difunde información biomédica.

2.1.11.2. PubMed

2.1.11.2.1. vEs el servicio de búsqueda de la Biblioteca Nacional de Medicina (NLM) que brinda acceso a más de 18 millones de citas en MEDLINE (Literatura médica, análisis y sistema de recuperación en línea) y otras bases de datos relacionadas, con enlaces a Revistas online participantes.

2.1.11.3. Entrez

2.1.11.3.1. Integra la literatura científica, las bases de datos de secuencias de ADN y proteínas, datos de estructura de proteínas tridimensionales, conjuntos de datos de estudios de población y ensamblajes de genomas completos en un sistema estrechamente acoplado.

2.1.11.4. BLAST (Herramienta básica de búsqueda de alineación local)

2.1.11.4.1. Es la herramienta de búsqueda de similitud de secuencias del NCBI diseñada para apoyar el análisis de bases de datos de nucleótidos y proteínas. BLAST es un conjunto de programas de búsqueda de similitud diseñados para explorar todas las bases de datos de secuencias disponibles, independientemente de si la consulta es proteína o ADN.

2.1.11.5. OMIM (La herencia mendeliana en línea en el hombre )

2.1.11.5.1. Es un catálogo de genes humanos y trastornos genéticos. Fue creado por Victor McKusick y sus colegas y desarrollado para la World Wide Web por NCBI.

2.1.11.6. Taxonomia

2.1.11.6.1. Incluye un navegador de taxonomía para las principales divisiones de organismos vivos (arqueas, bacterias, eucariotas y virus). El sitio presenta información de taxonomía, como códigos genéticos y recursos de taxonomía, e información adicional, como datos moleculares sobre organismos extintos y cambios recientes en los esquemas de clasificación.

2.1.11.7. Estructura

2.1.11.7.1. Mantiene la Base de datos de modelado molecular (MMDB), una base de datos de estructuras tridimensionales macromoleculares, así como herramientas para su visualización y análisis comparativo. MMDB contiene estructuras de biopolímeros determinadas experimentalmente obtenidas del Protein Data Bank (PDB).

2.1.11.7.2. Los recursos de estructura en NCBI incluyen PDBeast (un sitio de taxonomía dentro de MMDB), Cn3D (un visor de estructura tridimensional) y una herramienta de búsqueda de alineación vectorial (VAST) que permite la comparación de estructuras.

2.1.12. EL INSTITUTO EUROPEO DE BIOINFORMATICA (EBI)

2.1.12.1. El sitio web de EBI es comparable a NCBI en su alcance y misión, y representa un recurso complementario e independiente. EBI presenta seis bases de datos moleculares centrales.

2.1.12.2. 1. EMBL-Bank es el repositorio de secuencias de ADN y ARN que es complementario de GenBank y DDBJ. 2. SWISS-PROT. 3. TrEMBL son dos bases de datos de proteínas. 4. MSD es una base de datos de estructura de proteínas. 5. Ensembl es uno de los tres exploradores principales del genoma. 6. ArrayExpress es uno de los dos principales repositorios mundiales para la expresión de genes.

2.1.13. ACCESO A LA INFORMACIÓN: NÚMEROS DE ADHESIÓN A LA ETIQUETA E IDENTIFICAR SECUENCIAS

2.1.13.1. El Proyecto de Secuencia de Referencia (RefSeq)

2.1.13.1.1. El objetivo de RefSeq es proporcionar la mejor secuencia representativa para cada transcripción normal (es decir, no mutada) producida por un gen y para cada producto proteico normal

2.1.13.2. El proyecto de secuencia de codificación de consenso (CCDS)

2.1.13.2.1. Se estableció para identificar un conjunto central de secuencias codificadoras de proteínas que proporcionan una base para un conjunto estándar de anotaciones genéticas.

2.1.13.2.2. El proyecto CCDS se ha aplicado a los genomas humanos y de ratón, y por lo tanto su alcance es considerablemente más limitado que el de RefSeq.

2.1.14. ACCESO A LA INFORMACIÓN VÍA ENTREZ GENE EN NCBI

2.1.14.1. UniProt (Universal Protein Resource)

2.1.14.1.1. Es el catálogo de secuencias de proteínas centralizado más completo.Formado como un esfuerzo de colaboración en 2002.

2.1.14.2. El sistema de recuperación de secuencias en EXPASY

2.1.14.2.1. Uno de los recursos más útiles disponibles para obtener secuencias de proteínas y datos asociados lo proporciona ExPASy, el sistema experto de análisis de proteínas. El servidor ExPASy es un recurso importante para las herramientas de análisis, software y bases de datos relacionados con la proteómica. Además de proporcionar acceso a la base de datos UniProt, ExPASy sirve como un portal para el Sistema de Recuperación de Secuencias (SRS).

2.1.15. ACCESO A LA INFORMACIÓN: LOS TRES NAVEGADORES DE GENOMAS PRINCIPALES

2.1.15.1. Los navegadores de genomas son bases de datos con una interfaz gráfica que presenta una representación de la información de secuencia y otros datos en función de la posición en los cromosomas.

2.1.15.1.1. El visor de mapas en NCBI

2.1.15.1.2. El navegador del genoma de la Universidad de California, Santa Cruz (UCSC)

2.1.15.1.3. El navegador del genoma de Ensembl