UniProt

Uniprot je komplexní databáze proteinových sekvencí. Tato volně přístupná databáze obsahuje informace o funkci proteinu. Informace v UniProt sdružují výsledky projektů sekvenujících genomy a informace o biologických funkcích bílkovin.

UniProt konsorcium

UniProt konsorcium se skládá z Evropského institutu Bioinformatiky (EMBL-EBI), Švýcarského institutu bioinformatiky (SIB) a Protein Information Resource (PIR). V tomto projektu je zapojeno více než sto zaměstnanců, kteří se podílí na správě databáze, vývoji softwaru a podpoře uživatelů.

Původ UniProt databází

UniProt vznikl sloučením Swiss-Prot, TrEMBL a PIR-PSD.

EMBL-EBI a SIB byli společně správci Swiss-Prot a TrEMBL. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) byl vytvořen za účelem pomoci Swiss-Prot, neboť rychlost generování sekvenčních dat byla rychlejší než byl schopen stíhat. Protein Information Resource (PIR) byl zachován a po sloučení těchto tří institucí vzniklo v roce 2002 UniProt Consortium.

Organizace UniProt databází

UniProt se skládá ze čtyř databází: the UniProt Knowledgebase (UniProtKB)^[1], the UniProt Archive (UniParc)^[2], the UniProt Reference Clusters (UniRef)^[3] a The UniProt Metagenomic and Environmental Sequences (UniMes).

UniProtKB

UniProtKB je složen ze dvou částí: UniProtKB/Swiss-Prot a UniProtKB/TrEMBL

UniProtKB/Swiss-Prot je kvalitní, manuálně anotovaná sekce UniProtuKB, která sdružuje experimentální výsledky a vědecké závěry. Anotace se skládají z informací o proteinech, jejich struktuře, post-translační modifikaci, doménách, sekundární a kvartérní struktuře, podobnosti k jiným proteinům atd. V porovnání s UniProtKB/TrEMBL můžeme ve SWISS-PROT najít výrazně méně výsledků.

UniProtKB/TrEMBL obsahuje kvalitní výpočetně analyzované záznamy obohacené o automatickou anotaci. Anotované překlady kódujících sekvencí z jiných databází jsou automaticky zpracovány a převedeny do UniProtKB/TrEMBL. UniProtKB/TrEMBL obsahuje také sekvence například z PDB.

UniParc

UniParc je rozsáhlá databáze obsahující všechny proteinové sekvence bez anotací, z hlavních, veřejně dostupných databází proteinových sekvencí. Proteiny se mohou objevovat v několika různých zdrojových databázích nebo v několika kopiích ve stejné databázi. UniParc ukládá každou jedinečnou sekvenci zvlášť, čímž se zabraňuje zbytečnému opakování. Každá sekvence má svůj identifikátor (UPI), díky kterému je možné určit stejný protein z různých databází.

UniRef

UniRef poskytuje seskupený soubor sekvencí z UniProtKB a vybrané záznamy z UniParc. UniRef100 seskupuje všechny identické sekvence a subfragmenty s 11 nebo více zbytky do jednoho záznamu. UniRef50 a UniRef90 jsou sestaveny na bázi UniRef100.

UniMes^[4]

UniMes slouží jako úložiště metagenomických a environmentálních údajů.

Přístup do databáze

Internetové stránky UniProt jsou primárním přístupovým bodem k datům a dokumentaci. Tyto stránky nabízí různé nástroje jako např.: fulltextové vyhledávání, fulltextové vyhledávání pro jednotlivé pole, vyhledávání podobné sekvence, sériové vyhledávání pro více sekvencí současně, mapování identifikátoru v databázi. Web také nabízí stručný úvod pro začátečníky, příslušný odkaz lze nalézt na domovské stránce. Při vyhledávání není třeba mít znalost o funkcích organizace dat ani syntaxe vyhledávání, takže je vhodný i pro uživatele-začátečníky. Výsledky vyhledávání jsou seřazeny dle podobnosti s vyhledávaným slovem. V levé části webu je po vyhledání možné výsledky filtrovat dle různých parametrů. Výsledky vyhledávání sekvenční podobnosti lze filtrovat podle taxonomie, pro získání rychlého přehledu o taxonomickém rozdělení výsledků. Anotace sekvencí shodných záznamů mohou být transformovány do alignmentu, aby bylo vidět, zda zůstávají zachovány důležité pozice. Web umožňuje si vyhledané struktury dávat do záložek (funkce Basket) a sady výsledků stahovat.

Informace v databázi

UniProt je jedna z nejlépe anotovaných proteinových databází současnosti. U vyhledaných struktur je možné najít mnoho informací o funkci, regulaci, umístění v buňce, patologických projevech souvisejících s proteinem a konkrétní příklady mutací, které je způsobují. Dále se zde nachází informace o posttranslačních modifikacích a interakcích, na kterých se protein podílí. Je zde možno nalézt odkazy na konkrétní PDB struktury. Nezbytnou součástí databáze jsou informace o jednotlivých doménách a proteinové rodině. Také se zde nachází sekvence, kterou je možné stáhnout ve formátu FASTA a mnoho dalších.

Reference

↑ MAGRANE, Michele. UniProt Knowledgebase: a hub of integrated protein data. Database [online]. 2011-03-29. Roč. 2011. Dostupné online. DOI 10.1093/database/bar009. (anglicky)
↑ LEINONEN, R.; DIEZ, F. G.; BINNS, D.; FLEISCHMANN, W.; LOPEZ, R.; APWEILER, R. UniProt archive. S. 3236–3237. Bioinformatics [online]. 2004-11-22. Roč. 20, čís. 17, s. 3236–3237. Dostupné online. DOI 10.1093/bioinformatics/bth191. (anglicky)
↑ SUZEK, B. E.; WANG, Y.; HUANG, H.; MCGARVEY, P. B.; WU, C. H. UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. S. 926–932. Bioinformatics [online]. 2015-03-15. Roč. 31, čís. 6, s. 926–932. Dostupné online. DOI 10.1093/bioinformatics/btu739. PMID 25398609. (anglicky)
↑ UniProt Metagenomic and Environmental Sequences (UniMES) [online]. uniprot.org, rev. 2018-04-10 [cit. 2022-01-16]. Dostupné online. (anglicky)

Externí odkazy

[1] MAGRANE, Michele. UniProt Knowledgebase: a hub of integrated protein data. Database [online]. 2011-03-29. Roč. 2011. Dostupné online. DOI 10.1093/database/bar009. (anglicky)

[2] LEINONEN, R.; DIEZ, F. G.; BINNS, D.; FLEISCHMANN, W.; LOPEZ, R.; APWEILER, R. UniProt archive. S. 3236–3237. Bioinformatics [online]. 2004-11-22. Roč. 20, čís. 17, s. 3236–3237. Dostupné online. DOI 10.1093/bioinformatics/bth191. (anglicky)

[3] SUZEK, B. E.; WANG, Y.; HUANG, H.; MCGARVEY, P. B.; WU, C. H. UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. S. 926–932. Bioinformatics [online]. 2015-03-15. Roč. 31, čís. 6, s. 926–932. Dostupné online. DOI 10.1093/bioinformatics/btu739. PMID 25398609. (anglicky)

[4] UniProt Metagenomic and Environmental Sequences (UniMES) [online]. uniprot.org, rev. 2018-04-10 [cit. 2022-01-16]. Dostupné online. (anglicky)

[1]

[2]

[3]

[4]