Protein threading

Protein threading, nebo také rozpoznávání foldů, je metoda užívaná při modelování proteinů, které mají stejný fold, jako nějaký protein známé struktury. Na rozdíl od metody homologního modelování proteinů, kdy existují homologní struktury pro daný protein a jsou uloženy v databázi PDB, metoda protein threading se využívá, když žádný homologní protein (templát) známé struktury neexistuje. Tato metoda pak pracuje na základě statistických znalostí o vztazích mezi strukturami uloženými v PDB a proteinem, který chceme modelovat.

Samotná predikce probíhá „thredingem“, neboli umisťováním jednotlivých aminokyselin z cílové sekvence do pozic ve struktuře templátu s následným vyhodnocením shody mezi predikovaným proteinem a templátem. Poté se vybere nejvhodnější templát a na základě alignmentu s touto sekvencí, je pak vytvořen strukturní model hledaného proteinu.

Metody threadingu jsou rozšířené a efektivní, a to na základě toho, že v přírodě existuje poměrně malé množství rozličných foldů. Momentálně známe asi 1300 různých foldů, jsou však stále nacházeny i nové, díky velkému množství studií realizovaných v oblasti strukturní genomiky. Existuje tedy asi 80% šance, že námi studovaný protein má podobný fold jako jiný, v minulosti identifikovaný, jehož struktura byla určená pomocí rentgenové krystalografie nebo NMR spektroskopie a uložena do databáze PDB.

Tvorba strukturního modelu

Pokud chceme definovat funkci nového protein, budeme vycházet nejdříve z aminokyselinové sekvence. To však nestačí, jelikož funkce proteinu je definována nejen jeho biochemickým složením, ale také ze značné části jeho strukturou. Můžeme předpokládat, že jeho struktura bude podobná takovému proteinu, který má přibližně stejné aminokyselinové složení, to by byl princip homologního modelování. Homologní modelování však nemusí být vždy vhodné, proto potřebujeme databázi foldů, abychom byly schopní predikovat struktury v nových proteinech pomocí metod rozpoznávání foldů.

Klasifikace proteinových struktur

Databáze SCOP (Structural Classification of Proteins) obsahuje klasifikaci strukturních domén proteinů, která je založena na podobnostech struktur a aminokyselinových sekvencí. Proteiny jsou klasifikovány do rodin a nadrodin a ty jsou dále shlukovány do příbuzných foldů a následně tříd, ve kterých se odráží sekundární struktura domén.

Proteiny, které mají stejný tvar a podobnou sekvenci anebo funkci tvoří rodiny s předpokládaným bližším společným předkem. Obecně to znamená, že podobnost sekvencí proteinů musí být vyšší než 30%. Při nízkých hodnotách identity však může o evoluční příbuznosti rozhodnout také podobná struktura proteinů a jejich funkce. Například mnoho globinů tvoří rodinu i když mnozí z jejích členů mají sekvenční podobnost pouze přibližně 15%.

Proteiny s příbuzným tvarem, ale rozdílnější sekvencí nebo funkcí, je potom možné zařadit do nadrodin. Například aktin, ATPáza proteinu tepelného šoku a hexakináza společně tvoří nadrodinu.

Pod společný fold se pak řadí proteiny, které mají stejné sekundární struktury se stejným prostorovým uspořádáním. Proteiny se stejným foldem však nemusí mít bližšího společného předka. Strukturní podobnosti mohou vzniknou například, pouze na základě toho, že dané proteiny preferují určité strukturní uspořádání či topologii řetězců.

Metody rozpoznávání foldů

Metody rozeznávání foldů můžeme rozdělit do dvou kategorií. První jsou metody, které odvozují 1D profil pro každou strukturu v databázi foldů a dále provádí alignment cílové sekvence s těmito profily. Druhé jsou metody, které berou celou 3-D proteinovou strukturu jako templát.

Jednoduchá reprezentace profilu může být provedena tak, že se vyberou jednotlivé aminokyseliny ze struktury a každá bude následně označena podle toho, zda se nachází uvnitř proteinové struktury nebo na jejím povrchu. Dále může profil obsahovat také informace o sekundárních strukturách nebo také informace o konzervovanosti jednotlivých aminokyselin. Tento přístup poprvé popsali Bowie, Lüthy a David Eisenberg v roce 1991.^[1]

Co se týče 3-D reprezentace, daná struktura je vymodelována pomocí atomových vzdáleností všech párů atomů ve struktuře. Tento popis struktury je flexibilnější než pomocí profilů, avšak výpočet alignmentu je touto metodou náročnější. Termín „threading“ byl poprvé užit Davidem Jonesem, Williamem R. Taylorem a Janet Thorntonovou v roce 1992.^[2] Původně odkazoval právě na použití 3-D atomové reprezentace proteinové struktury templátu při rozpoznávání foldů. Dnes se pojem threading užívá již obecně jako synonymum pro rozpoznávání foldů.

Predikční postup

Samotný proces modelování proteinů pomocí protein threadingu můžeme rozdělit do čtyř kroků:

Sestavení databáze strukturních templátů a výběr vhodné proteinové struktury pro modelování. Obecně se tyto struktury vybírají z databází jako PDB, SCOP nebo CATH, po odfiltrování sekvencí o vysoké podobnosti.
Sestavení skórovací funkce, která měří, jak dobře odpovídá struktura sekvenci. Obsahuje možnost popsat mutace, okolí, párové interakce mezi blízkými aminokyselinami, sekundární strukturu a rozdíly v délkách. Kvalita skórovací funkce blízce souvisí s přesností predikce.
Threading alignment neboli iterativní porovnání (alignment) cílové sekvence se strukturními templáty pomocí optimalizace skórovací funkce. V některých případech je možné tento krok uskutečnit také algoritmem dynamického programování.
Threading predikce: Vybere se threading alignment, který je statisticky nejpravděpodobnější. Posléze se vytvoří strukturní model (ev. víc modelů) umístěním atomů páteře na místa templátu.

Porovnání s homologním modelováním

Homologní modelování a protein threading jsou predikční metody, které produkují proteinové struktury na základě určitých templátů a mnoho jejich metodik lze využít v obou případech, avšak liší se, co se týče struktur jejich cílových proteinů. Homologní modelování se využívá pro proteiny, pro něž existují homologní proteiny se známou strukturou, nacházející se také ve stejné rodině. Při protein threadingu známe pouze podobný fold. Predikce pomocí protein threadingu je tedy náročnější.

Při homologním modelování pracujeme s templátem jako se sekvencí, a tedy pouze sekvenční homologie je využita při predikci struktury proteinů. Protein threading bere templát jako strukturu a při alignmentu proteinů pracuje jak se sekvenčními, tak se strukturními daty pro vhodnou predikci. Pokud neexistuje zásadní homologie mezi sledovanými sekvencemi, při threadingu můžeme predikci založit navíc na strukturních datech. Proto může být protein threading v mnoha případech efektivnější než homologní modelování.

Obecně tedy, pokud je identita sekvencí při alignmentu menší než 25 %, homologní modelování nemusí dosáhnout požadovaných výsledků. Pokud však existuje alespoň vzdálená homologie mezi danými sekvencemi, protein threading může stále dospět k obstojné predikci.

Software pro protein threading

HHpred – známý threading server, který poskytuje program HHsearch, používaný pro detekci homologů na základě párového porovnání sekvencí pomocí skrytého Markovova modelu.
RaptorX – software pro modelování proteinů a jejich analýzu, který využívá pravděpodobnostní grafické modely a statistické inference k modelování proteinů pomocí jednoho či více templátů.^[3] Tento program je zdarma k použití.
Phyre – threading server, který kombinuje HHsearch s modelováním pomocí několika templátů a ab initio přístupem.
MUSTER – standardní threading algoritmus založený na dynamickém programování. Rovněž kombinuje více strukturálních zdrojů, pro přesnější alignment sekvencí.^[4]
SPARKS X – pravděpodobnostní přístup k porovnávání sekvence se strukturou, kdy se porovnávají predikované jednodimenzionální strukturní vlastnosti zadaného proteinu oproti odpovídajícím vlastnostem templátů.^[5]

Reference

↑ BOWIE, J.; LUTHY, R; EISENBERG, D. A method to identify protein sequences that fold into a known three-dimensional structure. Science. 1991-07-12, roč. 253, čís. 5016, s. 164–170. Dostupné online [cit. 2020-12-10]. ISSN 0036-8075. doi:10.1126/science.1853201. (anglicky)
↑ JONES, D. T.; TAYLORT, W. R.; THORNTON, J. M. A new approach to protein fold recognition. Nature. 1992-07, roč. 358, čís. 6381, s. 86–89. Dostupné online [cit. 2020-12-10]. ISSN 1476-4687. doi:10.1038/358086a0. (anglicky)
↑ PENG, Jian; XU, Jinbo. Raptorx: Exploiting structure information for protein alignment by statistical inference. Proteins: Structure, Function, and Bioinformatics. 2011, roč. 79, čís. S10, s. 161–171. Dostupné online [cit. 2020-12-10]. doi:10.1002/prot.23175. PMID 21987485. (anglicky)
↑ WU, Sitao; ZHANG, Yang. MUSTER: Improving protein sequence profile-profile alignments by using multiple sources of structure information. Proteins: Structure, Function, and Bioinformatics. 2008-02-04, roč. 72, čís. 2, s. 547–556. Dostupné online [cit. 2020-12-10]. doi:10.1002/prot.21945. PMID 18247410. (anglicky)
↑ YANG, Y.; FARAGGI, E.; ZHAO, H. Improving protein fold recognition and template-based modeling by employing probabilistic-based matching between predicted one-dimensional structural properties of query and corresponding native properties of templates. Bioinformatics. 2011-08-01, roč. 27, čís. 15, s. 2076–2082. Dostupné online [cit. 2020-12-10]. ISSN 1367-4803. doi:10.1093/bioinformatics/btr350. PMID 21666270. (anglicky)

Zdroj

[1] BOWIE, J.; LUTHY, R; EISENBERG, D. A method to identify protein sequences that fold into a known three-dimensional structure. Science. 1991-07-12, roč. 253, čís. 5016, s. 164–170. Dostupné online [cit. 2020-12-10]. ISSN 0036-8075. doi:10.1126/science.1853201. (anglicky)

[2] JONES, D. T.; TAYLORT, W. R.; THORNTON, J. M. A new approach to protein fold recognition. Nature. 1992-07, roč. 358, čís. 6381, s. 86–89. Dostupné online [cit. 2020-12-10]. ISSN 1476-4687. doi:10.1038/358086a0. (anglicky)

[3] PENG, Jian; XU, Jinbo. Raptorx: Exploiting structure information for protein alignment by statistical inference. Proteins: Structure, Function, and Bioinformatics. 2011, roč. 79, čís. S10, s. 161–171. Dostupné online [cit. 2020-12-10]. doi:10.1002/prot.23175. PMID 21987485. (anglicky)

[4] WU, Sitao; ZHANG, Yang. MUSTER: Improving protein sequence profile-profile alignments by using multiple sources of structure information. Proteins: Structure, Function, and Bioinformatics. 2008-02-04, roč. 72, čís. 2, s. 547–556. Dostupné online [cit. 2020-12-10]. doi:10.1002/prot.21945. PMID 18247410. (anglicky)

[5] YANG, Y.; FARAGGI, E.; ZHAO, H. Improving protein fold recognition and template-based modeling by employing probabilistic-based matching between predicted one-dimensional structural properties of query and corresponding native properties of templates. Bioinformatics. 2011-08-01, roč. 27, čís. 15, s. 2076–2082. Dostupné online [cit. 2020-12-10]. ISSN 1367-4803. doi:10.1093/bioinformatics/btr350. PMID 21666270. (anglicky)

[1]

[2]

[3]

[4]

[5]