National Center for Biotechnology Information

National Center for Biotechnology Information (NCBI) neboli Národní centrum pro biotechnologické informace je součástí Národní lékařské knihovny USA v areálu americké agentury National Institutes of Health (NIH, Národní zdravotní instituty). Centrum bylo založeno v roce 1988 a sídlí v areálu NIH v Bethsedě v Marylandu. Ředitelem NCBI byl v minulosti David Lipman, známý svou účastí na výzkumu technologie BLAST, užívané k sekvenaci DNA. V současnosti instituci vede Stephen Sherry, v minulosti řídící vývoj genetických databazí NCBI.[1]

National Center for Biotechnology Information
Logo NCBI
Logo NCBI
Lister Hill Center at the NIH campus, October 9, 2008.jpg
Vznik4. listopadu 1988
SídloBethesda, Spojené státy americké
Souřadnice
Mateřská organizaceUnited States National Library of Medicine
Oficiální webwww.ncbi.nlm.nih.gov
Logo Wikimedia Commons multimediální obsah na Commons
Některá data můžou pocházet z datové položky.

Úlohou NCBI je ukládání, zpracování a anotace vědeckých dat, zejména z oblastí molekulární biologie, medicíny, biochemie a genetiky. Instituce se také aktivně podílí na vyvíjení nástrojů pro analýzu bioinformatických dat. V databázích NCBI se soustřeďují výsledky sekvenací DNA (GenBank), vědecké články (PubMed Central, PubMed), informace o genech (RefSeq, Gene), anotace sekvencí makromolekul (Protein, Nucleotide) nebo mapovací data již osekvenovaných genomů (Genome). Služby NCBI jsou volně dostupné, podobně jako u bioinformatických institutů jako European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) nebo DNA Data Bank of Japan (DDBJ).

Pro tvorbu svých databází využívá NCBI data ukládané vědeckou komunitou manuálně přímo do NCBI nebo získávané jejich výměnou se spřízněnými institucemi jako např. DDBJ, European Molecular Biology Laboratory (EMBL), Protein Information Resource (PIR) nebo vydavateli vědecké literatury. Minoritní podíl na zisku dat tvoří také cílené správcovské aktivity NCBI, data aktivně vkládaná zaměstnanci centra. Množství uložených dat v NCBI roste exponenciálně - v roce 2020 bylo ve všech databázích NCBI celkově uložených přes 3 miliardy záznamů [2], v porovnání s přibližně 680 miliony záznamy v roce 2012 [3] a 90 miliony záznamy v roce 2007.[4]Služby NCBI jsou denně využívany až 4 miliony použivatelů.[5]

Prohledávání NCBI je zprostředkováno systémem Entrez, kterého výstupem je komplexní záznam získaný z více propojených databází. NCBI také umožňuje prohledávání svých databází za účelem nalezení podobných sekvenci pomocí algoritmu Basic Local Aligment Search Tool (BLAST). Pro stažení všech relevantních dat přirazených k danému databázovému záznamu slouží The Entrez Programming Utilities (E-utilities).

Basic Local Alignment Search Tool (BLAST)Editovat

BLAST je algoritmus určený pro vyhledávání podobných sekvenci mezi uloženými (nukleotidovými nebo proteinovými) sekvencemi. Při prohledávání NCBI pomocí BLAST je možné použít různé vstupní parametry (např. skórovací tabulka, prohledávaná databáze) podle předem požadovaných kritérií. Výstupní sekvence jsou seřazené dle statistické významnosti nalezené shody. BLAST může být také využitý pro určení funkčních a evolučních vztahů mezi sekvencemi nebo pro nalezení homologních členů stejné genové rodiny. V NCBI se nachází více verzí BLAST, které umožňují prohledávat příbuzné nukleotidové sekvence (BLASTN), proteinové sekvence (BLASTP), proteinové sekvence z výchozí translatované nukleotidové sekvence (BLASTX), translatované nukleotidové sekvence z výchozí sekvence proteinu (TBLASTN) nebo translatované nuleotidové sekvence z výchozí translatované nukleotidové sekvence (TBLASTX).

GenBankEditovat

GenBank je databáze genetických sekvencí obsahující anotovanou sbírku DNA sekvencí.[1] GenBank je spolu s DNA Data Bank of Japan a European Nuclotide Archive součástí tzv. International Nucleotide Sequence Database Collaboration (INSDC), které aktivně spolupracují na archivaci nukleotidových sekvencí. Mezi těmito institucemi také dochází k vzájemné výměně uložených dat na denní báze. Nové vydání GenBank vychází průběžně v dvouměsíčních intervalech zveřejněním na stránce ftp. Jednotlivé záznamy v GenBank jsou katalogizované pod unikátním šestimístným číslem a obsahují údaje jako zdrojový organismus, struční popis k dané sekvenci, délka a typ sekvence, pořadí nukleotidů ve formátu FASTA a také bibliografický záznam.[6]

PubMedEditovat

PubMed je nástroj pro prohledávání vědecké literatury, uložené v bibliografické databázi MEDLINE s obsahem přes 32 miliónu citaci a abstraktů z více než 5200 vědeckých časopisů.[7] Rozhraní PubMed umožňuje komplexní prohledávání vědeckých prací a poskytuje externí odkazy na plné texty a stránky publikací. Vybrané volné publikace jsou taky dostupné v archivu PubMed Central (PMC), který obsahuje přes 6 milionů plných textů zejména z biomedicinské a biologické oblasti výzkumu. PubMed je jako databáze veřejnosti přístupna od roku 1996. Reference v PubMed jsou automaticky převzaté prostřednictvím MEDLINE z vybraných časopisů, jež jsou průběžně aktualizovaná komisí Literature Selection Technical Review Committee (LSTRC).

Reference Sequence (RefSeq)Editovat

Databáze RefSeq shromažďuje sekvence genomových DNA, jejich transkriptů a proteinů za účelem tvorby rozsáhlé neredundantní sbírky integrující sekvenční, genetické a funkční informace v jednom záznamu. [2] Záznamy v RefSeq vycházejí z archivu INSDC, jejíž součástí je i GenBank, převzatá data jsou automaticky anotovaná a postupně validovaná správci databáze. Data do RefSeq jsou v menší míře získávané také v rámci spolupráce s projekty jako Saccharomyces Genome Database nebo The Arabidopsis Information Resource. Unikátní identifikační číslo jednotlivých záznamů je dynamické a liší se v závislosti na typu sekvence a množství validovaných údajů o dané sekvenci.

GeneEditovat

Gene je databází organizující data specifické pro geny. Na rozdíl od RefSeq jsou do databáze zahrnovány pouze geny z již osekvenovaných genomů nebo které jsou předmětem aktivního výzkumu. Všechny záznamy v Gene mají přidělený unikátní identifikátor GeneID. Obsahem záznamu jsou nomenklatura genu, jeho lokalizace v rámci genomu, genové produkty a jejich vlastnosti, expresní informace, markery, informace o fenotypu, nukleotidová sekvence, známé homology, proteinové domény a bibliografická data.[8]

GenomeEditovat

V databázi Genome se nachází sekvenční a mapovací data již osekvenovaných nebo průběžně sekvenovaných genomů. Obsahuje informace o genomech z přes 1000 různých druhů nebo kmenů, ze všech domén organismů. Genome zahrnuje sekvence nukleotidů genomů, mapy genetických markerů, variace (např. jednonukleotidové polymorfismy) a údaje z epigenomických studií. Vzhledem na přirozenou velikost a komplexnost genomových dat jsou záznamy členěné na jednotlivé chromozomy s unikátními RefSeq identifikátory. K prohlížení záznamů eukaryotických genomů uložených v Genome je možné použít rozhraní online prohlížeče Genome Data Viewer, lokalizovaného na stránce NCBI. [3]

Externí odkazyEditovat

V tomto článku byl použit překlad textu z článku National Center for Biotechnology Information na anglické Wikipedii.

  1. Stephen Sherry, PhD, Selected as Acting Director, National Center for Biotechnology Information, National Library of Medicine. www.nlm.nih.gov [online]. [cit. 2021-05-07]. Dostupné online. 
  2. SAYERS, Eric W; BECK, Jeffrey; BOLTON, Evan E. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research. 2020-10-23, roč. 49, čís. D1, s. D10–D17. Dostupné online [cit. 2021-05-03]. ISSN 0305-1048. DOI:10.1093/nar/gkaa892. PMID 33095870. 
  3. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research. 2013-1, roč. 41, čís. Database issue, s. D8–D20. PMID: 23193264 PMCID: PMC3531099. Dostupné online [cit. 2021-05-03]. ISSN 0305-1048. DOI:10.1093/nar/gks1189. PMID 23193264. 
  4. WHEELER, David L.; BARRETT, Tanya; BENSON, Dennis A. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research. 2007-1, roč. 35, čís. Database issue, s. D5–D12. PMID: 17170002 PMCID: PMC1781113. Dostupné online [cit. 2021-05-03]. ISSN 0305-1048. DOI:10.1093/nar/gkl1031. PMID 17170002. 
  5. NCBI Web Server Stats. www.ncbi.nlm.nih.gov [online]. [cit. 2021-05-07]. Dostupné online. 
  6. BENSON, Dennis A.; CAVANAUGH, Mark; CLARK, Karen. GenBank. Nucleic Acids Research. 2012-11-26, roč. 41, čís. D1, s. D36–D42. Dostupné online [cit. 2021-04-24]. ISSN 0305-1048. DOI:10.1093/nar/gks1195. PMID 23193287. (anglicky) 
  7. 2020 MEDLINE/PubMed Baseline: 30,420,660 Citations Found. www.nlm.nih.gov [online]. [cit. 2021-05-03]. Dostupné online. 
  8. MAGLOTT, D.; OSTELL, J.; PRUITT, K. D. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 2011-01-01, roč. 39, čís. Database, s. D52–D57. Dostupné online [cit. 2021-04-24]. ISSN 0305-1048. DOI:10.1093/nar/gkq1237. PMID 21115458. (anglicky)