Soumračná zóna

pojem v bioinformatice

Soumračná zóna (z angl. twilight zone), neboli tzv. oblast soumračné zóny, je funkční pojem v oboru bioinformatika. Pojem "soumračná zóna" reprezentuje oblast sekvenční identity (20-35%), která vymezuje hranice spolehlivosti pro detekci evoluční příbuznosti proteinů při sekvenčně srovnávacích analýzách (alignment). V tomto rozmezí sekvenční identity selhávají klasické metody (např. programy FASTA a BLAST), které zkoumají sekvenční podobnost a hledají homologní příbuznost mezi proteiny. Při divergenci dvou proteinových sekvencí, zůstávající podobnost (vyjádřena jako procento sekvenční identity) spolehlivě klesá před soumračnou zónu do hodnot očekávaných při náhodném srovnání. Nad oblastí soumračné zóny najdeme silné důkazy pro divergentní evoluci, s výrazně větší sekvenční identitou odrážející kratší dobu od evoluční divergence mezi párem proteinů. V případě, že sekvenční identita dvou proteinů spadá do soumračné zóny, tedy do oblasti vymezené 20–35% identity, je statistické vyhodnocení evoluční příbuznosti proteinů neprůkazné. Navzdory tomu, jsou zaznamenané případy[1], kdy zdánlivě nepříbuzné sekvence, sdílející menší sekvenční identitu než je vymezena soumrační zónou, zajímají podobné trojrozměrné struktury, stejně tak jako známé homologní sekvence mohou mít velmi nízkou sekvenční identitu (zatímco nehomologní sekvence mají někdy relativně vysokou sekvenční identitu).

Graf znázorňuje závislost párové sekvenční identity (hlavní svislá osa grafu) na délce alignmentu (hlavní vodorovná osa grafu). Jednotlivé body znázorňují falešně pozitivní výsledky strukturních homologů. Délkově-závislá hranice signifikantní sekvenční identity: HSSP křivka.

V praxi, minimální sekvenční identita dostatečná pro odvození evoluční příbuznosti závisí na délce sekvence a aminokyselinovém zastoupení, stejně jako na použité srovnávací tabulce. Přechod z bezpečné oblasti do soumračné zóny je charakteristický prudkým nárůstem falešných negativů. Zdali je tento problém způsoben technickou nedostatečností anebo je soumračná zóna definována konkrétním aspektem evoluce dlouho nebylo zřejmé. V současnosti existuje dostatek indicií že i nepříbuzné sekvence mohou někdy mít podobné hodnoty sekvenční identity jako sekvence příbuzné a tudíž není možné je stoprocentně rozlišit pouze na základě sekvenční identity.

Historie editovat

Tento problém se snažili vyřešit Sander a Schneider (1991[2]) analyzováním relativně malého počtu strukturních párů známých v roce 1990. Na základě své analýzy definovaly délkově-závislou hranici signifikantně sekvenční identity, tzv. "HSSP křivku". Burkhard Rost[3] se problému chopil posléze a v roce 1999 vydává článek, kde předkládá analýzu více než milionu sekvenčních srovnání mezi proteinovými páry známých struktur v databázi PDB. B. Rost charakterizuje pojem soumračná zóna a zároveň zpřesňuje hranici pro signifikanci sekvenční identity (a podobnosti) závislé na délce srovnávaných struktur. Definuje nové křivky, které zajišťují lepší detekci homologů v soumračné zóně (snižují falešně pozitivní hodnoty) než dosavadní HSSP křivky. Přesnost detekce se díky novým křivkám zvýšila téměř 10krát.

Termín soumračné zóny poprvé zavedl Doolittle v roce 1986[4] pro sekvenční srovnání párů proteinů sdílejících 20-30% sekvenční identity.

Reference editovat

  1. SUBBIAH, S.; LAURENTS, D. V.; LEVITT, M. Structural similarity of DNA-binding domains of bacteriophage repressors and the globin core. Current biology: CB. 1993-03-01, roč. 3, čís. 3, s. 141–148. PMID: 15335781. Dostupné online [cit. 2016-04-24]. ISSN 0960-9822. PMID 15335781. 
  2. SANDER, C.; SCHNEIDER, R. Database of homology-derived protein structures and the structural meaning of sequence alignment. Proteins. 1991-01-01, roč. 9, čís. 1, s. 56–68. PMID: 2017436. Dostupné online [cit. 2016-04-24]. ISSN 0887-3585. DOI 10.1002/prot.340090107. PMID 2017436. 
  3. ROST, B. Twilight zone of protein sequence alignments. Protein Engineering. 1999-02-01, roč. 12, čís. 2, s. 85–94. PMID: 10195279. Dostupné online [cit. 2016-04-24]. ISSN 0269-2139. PMID 10195279. 
  4. Doolittle, R.F.; Of URFs and ORFs: a primer on how to analyze derived amino acid sequences. University Science Books, Mill Valley, CA, USA.