Phyloseq (Explore Microbiome Profiles Using R, česky Prozkoumej profily mikrobiomů pomocí R) slouží jako nástroj k importu, ukládání, analýze a grafickému zobrazení komplexních fylogenetických sekvenačních dat mikrobiomů. Ty musejí být předem zklastrovány do OTUs (Operational Taxonomic Units, česky Operační taxonomické jednotky).

Data mohou být získávána z různých zdrojů, jako jsou mikrobiomy lidí a jiných organismů, mikrobiomy půdy, povrchů, vody a dalších.[1]

Phyloseq (balíček programu R) je otevřený softwarový balíček, který je volně dostupný na stránkách GitHub a Bioconductor.[2][3]

Nástroje Phyloseq editovat

Program R editovat

Podrobnější informace naleznete v článku R (programovací jazyk).

Používaný program R je programovací jazyk pro statistickou analýzu dat a jejich grafické zobrazení. V řadě oblastí statistiky je faktickým standardem. Funkce prostředí R lze rozšířit pomocí knihoven označovaných jako balíčky (packages). Pro verzi 3.6.2 jich bylo v lednu roku 2020 v centrálním repozitáři CRAN k dispozici 15 325. Příkladem často používaného balíčku je ggplot2 pro zobrazení dat.

OTUs editovat

OTUs se používají ke kategorizaci bakterií na základě podobnosti sekvencí. Přiřazení k jednotlivým OTUs je provedeno pomocí BLAST analýz.

Blast editovat

BLAST (Basic Local Alignment Search To, česky Základní vyhledávací nástroj pro místní zarovnání) je algoritmus používaný v bioinformatice za účelem srovnávání primárních sekvenčních informací, například nukleotidů DNA z různých sekvencí nebo sekvencí aminokyselin z různých proteinů. BLAST umožňuje srovnání dotazované (zadávané) sekvence se sekvencemi v databázi a zároveň rozpoznání obdobných sekvencí nad definovanou hranicí podobnosti.

Data Phyloseq editovat

Amplikonová analýza editovat

Data mohou být získávána z různých zdrojů, jako jsou mikrobiomy lidí a jiných organismů, mikrobiomy půdy, povrchů, vody a dalších.

Nástroje balíčku je vhodné využít především v případě zpracování dat získaných pomocí amplikonových analýz mikrobiomových profilů. Vstupní data mohou být například metadata k analyzovaným vzorkům, fylogenetické stromy a přiřazení sekvencí k příslušným OTUs.

Formát a grafika editovat

Tento balíček zároveň využívá další nástroje v R (vegan,[4] ade4,[5] picante,[6] ape) a také zavádí pokročilý a flexibilní grafický systém (ggplot2) pro snadnější tvorbu kvalitní grafiky vyžadované pro publikační účely. Phyloseq je spojen se speciálním systémem S4 tříd (S4 classes) pro možnost uložení všech souvisejících fylogenetických sekvenačních dat a tím i pro snadnější sdílení dat a reprodukovatelnost analýz.

Phyloseq podporuje data importovaná v mnoha formátech a zpracovává je pomocí různých analýz jako je kalibrace, filtrování, tvorba subsetů a klastrů, porovnání mezi tabulkami, analýzy diverzity (Alfa-diverzita), paralyzovaný Fast UniFrac, ordination metody. Výstupem je grafické zpracování v publikovatelné kvalitě.[7]

Balíček zahrnuje i příklady souborů ve formátu biom s různým stupněm organizace dat. Funkce import biom umožňuje současně importovat soubory s fylogenetickými stromy a referenčními sekvencemi.

Funkce Phyloseq editovat

  • Importování abundance a přidružených dat z OTU/denoising pipeline:[8] (DADA2,[9] UPARSE,[10] QIIME,[11] mothur,[12] PyroTagger, RDP,[13] a další)
  • Vhodné obalovače pro běžné analýzy (convenience analysis wrappers)
  • 44 distančních metod (UniFrac, Jensen-Shannon,[14] a další)
  • Ordination analýzy – constraint/unconstraint grafy (set metod)[15]
  • Funkce grafického zobrazení mikrobiomů s využitím ggplot2 pro efektivní a flexibilní analýzu
  • Modulární a plně přizpůsobitelné přípravné funkce pro plně reprodukovatelnou práci
  • Funkce pro spojování dat v souborech s OTUs s jinými proměnnými vzorků a s podporou pro manuálně importovaná data
  • Native R/C kód, paralelizované provedení UniFrac výpočtu distancí
  • Mnoho testovacích metod specifických pro high-throughput amplikonová sekvenační data
  • Příklady pro jednotlivé analýzy a grafy s již publikovanými daty

Reference editovat

  1. MCMURDIE, Paul J.; HOLMES, Susan. phyloseq: An R Package for Reproducible Interactive Analysis and Graphics of Microbiome Census Data. PLoS ONE. 2013-04-22, roč. 8, čís. 4, s. e61217. Dostupné online [cit. 2021-03-01]. ISSN 1932-6203. DOI 10.1371/journal.pone.0061217. PMID 23630581. (anglicky) 
  2. zachcp/phyloseq-tools. github.com [online]. 2018-02-20 [cit. 2023-05-29]. Original-date: 2015-04-23T21:45:16Z. Dostupné online. 
  3. phyloseq: Handling and analysis of high-throughput microbiome census data. bioconductor.org [online]. 2023 [cit. 2023-05-29]. DOI: 10.18129/B9.bioc.phyloseq. Dostupné online. 
  4. vegan: an R package for community ecologists. github.com [online]. 2023-05-23 [cit. 2023-05-29]. Original-date: 2012-02-13T10:29:24Z. Dostupné online. 
  5. pkgdown. github.com [online]. 2023-04-20 [cit. 2023-05-29]. Original-date: 2015-09-09T13:08:16Z. Dostupné online. 
  6. picante. github.com [online]. 2023-04-25 [cit. 2023-05-29]. Original-date: 2013-10-18T02:14:54Z. Dostupné online. 
  7. phyloseq: Explore microbiome profiles using R. joey711.github.io [online]. [cit. 2021-03-01]. Dostupné online. 
  8. OTU / denoising pipeline. drive5.com [online]. [cit. 2023-05-29]. Dostupné online. 
  9. DADA2 Pipeline Tutorial (1.16). benjjneb.github.io [online]. [cit. 2023-05-29]. Dostupné online. 
  10. UPARSE OTU clustering. drive5.com [online]. [cit. 2023-05-29]. Dostupné online. 
  11. QIIME 2. qiime2.org [online]. [cit. 2023-05-29]. Dostupné online. 
  12. mothur website. https://mothur.org [online]. [cit. 2023-05-29]. Dostupné online. (anglicky) 
  13. Naive Bayesian Classifier algorithm. www.drive5.com [online]. [cit. 2023-05-29]. Dostupné online. 
  14. JSD function - RDocumentation. www.rdocumentation.org [online]. [cit. 2023-05-29]. Dostupné online. 
  15. ordination function - RDocumentation. www.rdocumentation.org [online]. [cit. 2023-05-29]. Dostupné online.