Modely kvantitativní závislosti aktivity na struktuře

regresní nebo klasifikační modely používané v chemických, biologických vědách a strojírenství

Modely kvantitativní závislosti aktivity na struktuře (QSAR) jsou regresní nebo klasifikační modely používané v chemických, biologických vědách a strojírenství. Stejně jako jiné regresní modely, QSAR modely jsou závislé na sadě prediktorových proměnných (X) závislých na odezvě proměnných (Y). Rozdíl oproti jiným metodám je v tom, že QSAR kategorizuje prediktorové proměnné na základě hodnoty odezvy.

Prediktor obsahuje fyzikálně-chemické vlastnosti nebo teoretických deskriptorů chemických látek. QSAR modely jednak shrnují předpokládané vztahy mezi chemickou strukturou a biologickou aktivitou v souboru dat. A také předpovídají aktivity nových chemických látek[1][2]

Souvisejícím termínem je Modely kvantitativní závislosti vlastností na struktuře (QSPR). V tomto případě je místo aktivity výpovědní proměnnou chemická vlastnost.[3][4]. V tomto odvětví jsou studovány různé vlastnosti a chování chemických látek. Například kvantitativní závislost struktury na reaktivitě (QSRRs), kvantitativní závislost struktury na toxicitě (QSTRs), kvantitativní závislost struktury na elektrochemických vlastnostech (QSERs), kvantitativní závislost struktury na odbouratelnosti (QSBRs).[5][6]

Jako příklad, biologická aktivita může být vyjádřena kvantitativně jako koncentrace substance potřebné ke vzniku biologické odezvy. Když jsou fyzikálně-chemické vlastnosti a struktury vyjádřeny číselně je snazší hledat mezi nimi matematické vztahy, nebo kvantitativní závislosti struktury na aktivitě. Pokud je matematické vyjádření kvalitně validováno, dá se poté použit předpovědi chování nových chemických struktur.[7][8][9][10][11]

  • Aktivita = f(fyzikálně-chemické vlastnosti a/nebo strukturní vlastnosti) + chyba

Chyba je variabilní proměnná, která se může vyskytnout také u modelů, které jsou v pořádku.

Kroky QSAR editovat

  1. Výběr souboru dat a extrakce strukturních/empirických deskriptorů. Zvoleným souborem dat pro QSAR může být například množina chemických struktur s přiřazenou biologickou aktivitou.[12] Vzhledem k tomu, že se využívají modely strojového učení, je nutné volit takový soubor dat, který je dostatečně rozsáhlý pro dobrou statistiku modelu a také dostatečně malý s ohledem na výpočetní možnosti.[13] Tato sada dat je pak rozdělena na trénovací sadu, která je využita pro trénování modelu, a validační sadu, kterou se potom ohodnotí výsledný model. Nejčastěji dochází k rozdělení sady dat v poměru 80 % trénovací sada a 20% validační sada.
  2. Selekce proměnných (deskriptorů).Na empirické deskriptory lze nahlížet jako na numerickou reprezentaci molekul v datovém souboru. Tyto deskriptory mohou mít různou fyzikálně-chemickou a také biologickou povahu a mohou být rozděleny do několika skupin: fyzikálně-chemické, strukturní, topologické, elektrochemické, termodynamické nebo kvantově-chemické. Mezi nejpoužívanější deskriptory patří rozdělovací koeficient oktanol/voda (log P), který popisuje afinitu k vodnímu nebo lipidovému médiu.[14] Disociační konstanta patří mezi elektrochemické deskriptory. Mezi strukturní deskriptory se řadí např. počet chirálních center, molekulová hmotnost nebo počet donorů a akceptorů vodíkových vazeb. Zvážíme-li dimenzionalitu, může se jednat o 0D (atomy, počet vazeb), 1D (počet částí molekul), 2D (strukturní, fyzikálně-chemické a topologické deskriptory), 3D (elektrochemické deskriptory, hustota molekuly), 4D deskriptory, které na různých úrovních popisují geometrii a topologii dané molekuly.[15] Velmi rozšířené jsou tzv. 2D „fingerprints“, kdy jsou data o geometrickém uspořádání zaznamenaná ve formě bitového vektoru. Práce s nimi je snadná a poměrně rychlá.
  3. Konstrukce modelu. V rámci modelu lze konstruovat úlohy klasifikační nebo regresní. Mezi běžně využívané algoritmy patří Support Vector Machine, náhodný les (Random Forest), Gradient Boosting Machines nebo neurální sítě (Neural Networks). Jak již bylo zmíněno, v datovém souboru by se mělo vyskytovat dostatečné množství dat na to, aby se daly rozdělit mezi trénovací sadu, testovací sadu a sadu pro validaci modelu (alespoň 15 - 20%).[13]
  4. Validace a vyhodnocení. Nejčastějšími chybami modelů bývá nahodnocení (overfitting) a podhodnocení (underfitting). Z tohoto důvodu by se měla spolehlivost modelu vždy otestovat. Zlatým standardem je vnitřní tzv. (n-násobná) křížová validace, kdy dojde k rozdělení dat na n částí a mezitím, co je (n-1) použito jako trénovací sada, je n-tá testovací. Dle některých zdrojů [13] je však tato validace sama o sobě nedostatečná a je potřeba jí doplnit validací externí. Zde se využívá nezávislá testovací množina dat, která je však podobná trénovací sadě. Externí validace regresních modelů se často provádí pomocí střední kvadratické chyby nebo Pearsonova korelačního koeficientu r2. V případě klasifikačních úloh se využívá tzv. matice záměn (nebo taky chybová matice), ze které lze poté určit sensitivitu, specificitu a přesnost modelu[16].

Používané algoritmy editovat

Pro tvorbu QSAR modelů se používají algoritmy, které jsou využívány při strojovém učení. Nejjednodušším algoritmem používaným při QSAR modelování je mnohonásobná lineární regrese (Multiple Linear Regression). Ne vždy je však vztah mezi deskriptory a predikovanou hodnotou lineární a některé modely vyžadují i nelineární vztah.[17] V tomto případě se pak využívá algoritmů jako neurální sítě (Neural Network), náhodný les (Random Forest) a Support Vector Machines.

Mnohonásobná lineární regrese (MLR) editovat

I přestože se jedná o velmi starý matematický nástroj, tak je tento algoritmus velmi oblíbený díky své jednoduchosti. Obecnou rovnici pro MLR lze vyjádřit následovně

  

kde Y je predikovaná hodnota, X jsou deskriptory a a jsou regresní koeficienty.[18] Tato metoda je velmi náchylná na nadhodnocení (overfitting) a proto je důležité zvolit správný počet deskriptorů.

K-means editovat

Tento algoritmus rozdělí data do příslušného počtu (k) skupin. Algoritmus patří do skupiny tzv. unsuperised learning (učení bez učitele) algoritmů, což znamená, že vstupní data nemají hledanou (výslednou) hodnotu.[19] Základem metody je definovat k středů (těžišť), každý pro jednu skupinu, a rozmístit je co nejdál od sebe. Následně je každý bod ze sady dat přiřazen k nejbližšímu těžišti. Po přiřazení všech bodů jsou těžiště přepočítaná a proces opakuje, dokud se těžiště nepohybují a v tedy je model hotový.[18]

Rozhodovací strom a náhodný les editovat

Rozhodovací strom (desicion tree) je algoritmus, který může být použit jak pro klasifikační, tak pro regresní úkoly. Tento algoritmus se snaží zobecňovat nebo najít nějaké vzorce (podobnosti) mezi vstupními daty.[20] Hlavní myšlenkou je rozdělit sadu dat na dvě skupiny, které je možné aproximovat jedinou hodnotou, v každém kroku. Tento proces je opakován v každém kroku. Rozdělení a aproximovaná hodnota je validována pomocí střední kvadratické chyby po každém kroku. Pokud by se vizualizoval tento proces, tak by vytvářel strom, proto název rozhodovací strom. Náhodný les (random forest) je poté aplikací více rozhodovacích stromů a vytvoření finální predikce z predikcí každého stromů.[18]

Neurální sítě editovat

Inspirace algoritmu neurálních sítí přišla od lidských neuronů. Neuronové sítě se skládají ze tří základních vrstev, vstupní, skrytá (tzv. hidden), kterých může být i více než jedna, a výstupní vrstva.[21] Každá vrstva se skládá z neuronů (uzlů). Počet neuronů ve vstupní vrstvě je stejný jako počet vstupních proměnných (deskriptorů). Skrytá vrstva má různé množství neuronů a výstupní vrstva má jenom jeden neuron, ze kterého poté vychází predikovaná hodnota. Uzly ležící v sousedních vrstvách jsou spojeny tzv. synaptickými váhy. Vstupní data jsou zpracována skrz skrytou vrstvu až do výstupní, ze které se získá predikovaná hodnota. Synaptické váhy mezi jednotlivými uzly jsou iterativně upravovány v průběhu trénovací fáze, aby model vykazoval nejlepší predikované hodnoty.[16]

Support Vector Machines editovat

Support vector machines (metoda podpůrných vektorů) slouží pro analýzu dat a k rozpoznání vzorců mezi daty. Je možné použít tuto metodu pro regresivní i klasifikační úlohy. Principem této metody je vytvořit hyperrovinu v multidimenzionálním prostoru, aby bylo možné separovat různé skupiny sady dat.[18] Jednoduše řečeno, mezi skupinami dat je nakreslená hranice. Vzdálenost mezi hranicí a třídami je maximální, což zajišťuje minimální chybu.[19]

SAR a SAR paradox editovat

Základním předpokladem je, že podobné molekuly vykazují podobné vlastnosti. Základním problémem je proto, jak definovat malý rozdíl na molekulární úrovni, když každý druh aktivity, schopnost reakce, schopnost biotransformace, rozpustnost atd. mohou záviset na dalším rozdílu. Dobré příklady lze nalézt v přehledových článcích o bioisosterech publikovaných Petanie a LaVoiem[22], Brownem[23].

Obecně platí, že je spíše třeba nalézt silné trendy. Vytvořené hypotézy obvykle závisí na konečném počtu chemických dat. Tudíž by měl být vzat v potaz princip indukce, aby nedošlo k chybným interpretacím dat.

SAR paradox ve zkratce odkazuje na to, že ne všechny podobné molekuly vykazují podobnou aktivitu.

Reference editovat

  1. ROY, KUNAL, 1971-. A primer on QSAR/QSPR modeling : fundamental concepts. Cham: [s.n.] 1 online resource (x, 121 pages) s. Dostupné online. ISBN 978-3-319-17281-1, ISBN 3-319-17281-6. OCLC 907289300 
  2. GHASEMI, Fahimeh; MEHRIDEHNAVI, Alireza; PÉREZ-GARRIDO, Alfonso. Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks. Drug Discovery Today. 2018-10, roč. 23, čís. 10, s. 1784–1790. Dostupné online [cit. 2019-12-24]. DOI 10.1016/j.drudis.2018.06.016. (anglicky) 
  3. ISARANKURA-NA-AYUDHYA, Chartchalerm; NAENNA, Thanakorn; NANTASENAMAT, Chanin. A practical overview of quantitative structure-activity relationship. EXCLI Journal ; Vol. 8. 2009-07-08, s. 2009. Dostupné online [cit. 2019-12-24]. DOI 10.17877/DE290R-690. (anglicky) 
  4. NANTASENAMAT, Chanin; ISARANKURA-NA-AYUDHYA, Chartchalerm; PRACHAYASITTIKUL, Virapong. Advances in computational methods to predict the biological activity of compounds. Expert Opinion on Drug Discovery. 2010-07, roč. 5, čís. 7, s. 633–654. PMID: 22823204. Dostupné online [cit. 2019-12-24]. ISSN 1746-0441. DOI 10.1517/17460441.2010.492827. PMID 22823204. 
  5. YOUSEFINEJAD, Saeed; HEMMATEENEJAD, Bahram. Chemometrics tools in QSAR/QSPR studies: A historical perspective. Chemometrics and Intelligent Laboratory Systems. 2015-12, roč. 149, s. 177–204. Dostupné online [cit. 2019-12-24]. DOI 10.1016/j.chemolab.2015.06.016. (anglicky) 
  6. GHASEMI, Fahimeh; FASSIHI, Afshin; PÉREZ-SÁNCHEZ, Horacio. The role of different sampling methods in improving biological activity prediction using deep belief network. Journal of Computational Chemistry. 2017-02-05, roč. 38, čís. 4, s. 195–203. Dostupné online [cit. 2019-12-24]. DOI 10.1002/jcc.24671. (anglicky) 
  7. TROPSHA, Alexander; GRAMATICA, Paola; GOMBAR, Vijay?K. The Importance of Being Earnest: Validation is the Absolute Essential for Successful Application and Interpretation of QSPR Models. QSAR & Combinatorial Science. 2003-04, roč. 22, čís. 1, s. 69–77. Dostupné online [cit. 2019-12-24]. ISSN 1611-020X. DOI 10.1002/qsar.200390007. (anglicky) 
  8. GRAMATICA, Paola. Principles of QSAR models validation: internal and external. QSAR & Combinatorial Science. 2007-05, roč. 26, čís. 5, s. 694–701. Dostupné online [cit. 2019-12-24]. DOI 10.1002/qsar.200610151. (anglicky) 
  9. CHIRICO, Nicola; GRAMATICA, Paola. Real external predictivity of QSAR models. Part 2. New intercomparable thresholds for different validation criteria and the need for scatter plot inspection. Journal of Chemical Information and Modeling. 2012-08-27, roč. 52, čís. 8, s. 2044–2058. PMID: 22721530. Dostupné online [cit. 2019-12-24]. ISSN 1549-960X. DOI 10.1021/ci300084j. PMID 22721530. 
  10. GHASEMI, Fahimeh; MEHRIDEHNAVI, Alireza; FASSIHI, Afshin. Deep neural network in QSAR studies using deep belief network. Applied Soft Computing. 2018-01, roč. 62, s. 251–258. Dostupné online [cit. 2019-12-24]. DOI 10.1016/j.asoc.2017.09.040. (anglicky) 
  11. TROPSHA, Alexander. Best Practices for QSAR Model Development, Validation, and Exploitation. Molecular Informatics. 2010-07-06, roč. 29, čís. 6–7, s. 476–488. Dostupné online [cit. 2019-12-24]. DOI 10.1002/minf.201000061. (anglicky) 
  12. ŠKUTA, SVOZIL. QSAR – MODELOVÁNÍ KVANTITATIVNÍCH VZTAHŮ MEZI STRUKTUROU A AKTIVITOU CHEMICKÝCH LÁTEK. Chemické listy [online]. 2017 [cit. 2020-12-23]. Dostupné online. 
  13. a b c TROPSHA, Alexander. Best Practices for QSAR Model Development, Validation, and Exploitation. Molecular Informatics. 2010, roč. 29, čís. 6–7, s. 476–488. Dostupné online [cit. 2020-12-24]. ISSN 1868-1751. DOI 10.1002/minf.201000061. (anglicky) 
  14. ROY, Kunal; KAR, Supratik; DAS, Rudra Narayan. Chapter 2 - Chemical Information and Descriptors. Příprava vydání Kunal Roy, Supratik Kar, Rudra Narayan Das. Boston: Academic Press Dostupné online. ISBN 978-0-12-801505-6. S. 47–80. (anglicky) DOI: 10.1016/B978-0-12-801505-6.00002-8. 
  15. NOVOTNÝ, J.; SVOZIL, D. Popis a určování podobnosti molekul s pomocí molekulárních deskriptorů. Chemické listy. 2017-11-15, roč. 111, čís. 11, s. 716–723. Dostupné online [cit. 2020-12-24]. ISSN 1213-7103. 
  16. a b GEDECK, Peter; KRAMER, Christian; ERTL, Peter. 4 - Computational Analysis of Structure–Activity Relationships. Příprava vydání G. Lawton, D. R. Witty. Svazek 49. [s.l.]: Elsevier Dostupné online. S. 113–160. (anglicky) DOI: 10.1016/S0079-6468(10)49004-9. 
  17. (PDF) A Practical Overview of Quantitative Structure-Activity Relationship. ResearchGate [online]. [cit. 2022-02-04]. Dostupné online. (anglicky) 
  18. a b c d ROY, Kunal; KAR, Supratik; DAS, Rudra Narayan. Chapter 6 - Selected Statistical Methods in QSAR. Příprava vydání Kunal Roy, Supratik Kar, Rudra Narayan Das. Boston: Academic Press Dostupné online. ISBN 978-0-12-801505-6. S. 191–229. (anglicky) DOI: 10.1016/B978-0-12-801505-6.00006-5. 
  19. a b IJSR, Batta Mahesh, International Journal of Science and Research (IJSR). Abstract of Machine Learning Algorithms - A Review - Count. International Journal of Science and Research (IJSR). Dostupné online [cit. 2022-02-04]. (English) 
  20. KOTSIANTIS, S. B. Decision trees: a recent overview. Artificial Intelligence Review. 2013-04, roč. 39, čís. 4, s. 261–283. Dostupné online [cit. 2022-02-04]. ISSN 0269-2821. DOI 10.1007/s10462-011-9272-4. (anglicky) 
  21. KING, Ross D.; HIRST, Jonathan D.; STERNBERG, Michael J. E. New approaches to QSAR: Neural networks and machine learning. Perspectives in Drug Discovery and Design. 1993-12-01, roč. 1, čís. 2, s. 279–290. Dostupné online [cit. 2022-02-04]. ISSN 1573-9023. DOI 10.1007/BF02174529. (anglicky) 
  22. PATANI, George A.; LAVOIE, Edmond J. Bioisosterism: A Rational Approach in Drug Design. Chemical Reviews. 1996-01, roč. 96, čís. 8, s. 3147–3176. Dostupné online [cit. 2019-12-24]. ISSN 0009-2665. DOI 10.1021/cr950066q. (anglicky) 
  23. Bioisosteres in medicinal chemistry. Weinheim, Germany: Wiley-VCH 1 online resource (xviii, 237 pages) s. Dostupné online. ISBN 978-3-527-65430-7, ISBN 3-527-65430-5. OCLC 802050117 

Externí odkazy editovat