Gene3D

komplexní databáze proteinových domén

Gene3D je komplexní databáze proteinových domén. Umožňuje sjednocený pohled na proteiny z hlediska struktury, molekulární funkce i evolučního vývoje. Již v roce 2005 poskytovala více než 240 genomů (i kompletních proteomových sad) různých organismů. [1]

Princip editovat

Gene3D spojuje velké množství proteinových rodin a funkčních databází. Kombinuje dva základní principy vyhledávání funkčních domén. Prvním principem je detailní znalost funkčních částí, ze kterých je složen protein, což umožňuje přesnější predikci než získání funkční informace jednoduchým převodem z nejvíce podobných sekvencí. Pokud ale architektura domény neodhalí specifickou funkci, přesnější informaci mohou poskytnout proteinové sekvence sdružené do rodin. Za účelem větší efektivity jsou zde zahrnuty i další zdroje kvalitních funkčních dat. [1]

Domény jsou v Gene3D přímo mapovány na základě struktur v CATH databázi (CATH je úložiště manuálně odvozených proteinových domén), což je podobný princip, jako využívá Superfamily pro SCOP, nebo jsou predikované použitím reprezentativního profilu HMM (Hidden Markov Model), který je odvozený z CATH superrodin. Využívá svou vlastní databázi BioMap, což je v podstatě úložiště biologických dat obsahující mapování mezi několika zdroji a UniProt sekvenčních databází. [1]

Pro větší spolehlivost přenosu funkčních dat mezi sekvencemi byl UniProt sjednocen do jednotlivých proteinových rodin prostřednictvím Tribe-MCL. Díky tomu měl již v roce 2006 kolem 1,8 milionu sekvencí zařazeno k nějaké proteinové rodině (tj. do skupiny, která má jednoho společného předka), což usnadňuje přenos funkčních informací. [1]

Uživatelé si mohou data z Gene3D stáhnout ve formátu XML.

Vývoj editovat

V roce 2006 byla databáze rozšířena přidáním sekvenční databáze UniProt, doménových dat z Pfam, metabolických drah a funkčních dat z COG, KEGG a GO databází a přidáním interakcí mezi proteiny z databází MINT a BIND. [1]

Gene3D je neustále aktualizována a přebudovávána. Současná verze je Gene3D v6 (začátek roku 2018), ve které bylo přidáno např. zobrazení domén v genovém stromu nebo byla přidána vizuální funkce ProtVista, která umožňuje vizualizaci přiřazené domény s velkým množství dalších komplementárních sekvencí. Dále byla např. přidána databáze Human Protein Atlas, zahrnující proteomická data, informace o expresi rakovino-specifických genech a o buněčných dráhách.[2]

V současnosti Gene3D obsahuje miliony proteinových sekvencí. Současně je zde více než 52 milionů sekvencí přiřazených k nějaké doméně (začátek roku 2018). [2]

Reference editovat

  1. a b c d e YEATS, Corin; MAIBAUM, Michael; MARSDEN, Russell. Gene3D: modelling protein structure, function and evolution. Nucleic Acids Research. 2006-01-01, roč. 34, čís. Database issue, s. D281–D284. PMID: 16381865 PMCID: PMC1347420. Dostupné online [cit. 2018-03-25]. ISSN 0305-1048. DOI 10.1093/nar/gkj057. PMID 16381865. 
  2. a b LEWIS, Tony E; SILLITOE, Ian; DAWSON, Natalie. Gene3D: Extensive prediction of globular domains in proteins. Nucleic Acids Research. 2018-01-04, roč. 46, čís. D1, s. D435–D439. Dostupné online [cit. 2018-03-25]. ISSN 0305-1048. DOI 10.1093/nar/gkx1069. (anglicky)