Clustal

Program Clustal je široce využívaný v molekulární biologii na mnohonásobné porovnávání sekvencí nukleových kyselin a proteinů (MSAs). Je vhodný pro přípravu fylogenetických stromů.

Historie

První Clustal program zhotovil Des Higgins roku 1988, ten byl navržen speciálně pro efektivní práci na osobním počítači. Původní program byl napsán v Microsoft Fortran pro MS-DOS a fungoval na osobních počítačích IBM ve čtyřech verzích: Clustal 1-4. Ty byly později (roku 1992) přepsány do Clustal V, který byl kompatibilní s VAX/VMS, Unix, Apple Macintosh a IBM. Tato verze umožnila vytvářet fylogenetické stromy.

Třetí generací této řady byl Clustal W vytvořen v roce 1994, který zahrnoval mnoho zlepšení – např. mezerám začala být udělována specifická sankce. Postupným zlepšováním Clustal W vznikl Clustal X. Paralelní verze Clustal W a Clustal X vytvořila společnost SGI. Ke konci devadesátých let 20. století byly programy Clustal X a Clustal W (z původního Clustal V) nejčastější používané – díky svému jednoduchému ovládání a rychlému zpracování středně těžkých dat. Poté ale nastoupily další a přesnější metody (např. MAFFT a MUSCLE) a Clustal přišel o své prvenství, ale na druhou stranu nejvíce využívané programy pro globální alignment jsou právě z řady Clustal programů.

Nově pracuje Clustal W metodou UPGMA (Unweighted Pair Group Method with Arithmetic Mean) na místo staršího NJ (Neighbor-Joining), čímž se zkrátila doba zpracování dat. Nový Clustal X je přepsán pomocí nástroje Qt GUI a využívá NCBI's vibrant toolbox.

Program Clustal byl dostupný ve třech variantách, Clustal W / X a Clustal Omega, napsaných v C++ a kompatibilní se systémy Linux, Macintosh a Windows. Dnes zcela aktuálně je dostupná pouze varianta Clustal Omega.

Clustal W

program volně přístupný online na EBI (European Bioinformatics Institute) umožňuje mnohonásobné seřazení vložených sekvencí pomocí jejich optimální shody a grafické znázornění jejích podobností formou kladogramu nebo fylogenetického stromu.

Postup programu:

Seřazení všech párů sekvencí a výpočet matice podobností (hodnoty procentuální identity)
Z matice podobností vypočítá shlukovou analýzou vodící strom, který zhruba odráží evoluční souvislosti
Seřazení dvou nejpodobnějších sekvencí, přidání další nejpodobnější sekvence (a podle potřeby přidání mezer)

Clustal X

grafické rozhraní Clustalu W

Program umožňuje více-sekvenční řazení (MSA = multiple sequence alignments), které je v současnosti jedním z nejčastěji používaných nástrojů bio-informatické analýzy. Porovnání podobnosti sekvence aminokyselin v jednotlivých proteinech umožňuje:

charakterizovat proteinové rodiny
detekovat a demonstrovat homologii (podobnost) mezi nově zjištěnou a již existující sekvencí
predikovat sekundární a terciární strukturu nové sekvence
molekulárně evoluční analýzy

Clustal Omega

Nový a rychlejší, dnes jediný dostupný z řady clustal, nástroj pro porovnávání tří a více sekvencí proteinů.

Dostupnost

Vstup/Výstup

Clustal akceptuje formáty NBRF/PIR, FASTA, EMBL/Swiss-Prot, Clustal, GCC/MSF, GCG9 RSF a GDE.

Výstupní formát může být např. Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE nebo NEXUS.

Práce s programem

Sekvence mohou být buď zadány, nebo stáhneme soubor z uživatelského počítače. V obou případech by sekvence měla být zadána v jednom ze sedmi různých formátů – GCG, FASTA, EMBL, GenBank, PIR, NBRF, Phylip nebo SWISS-PROT. Pokud se naskytnou problémy při snaze dělat velmi velké porovnávání sekvencí, doporučuje se software stahovat lokálně a kromě vstupního formátu mohou uživatelé využít výstupní formát pro vícenásobné porovnávání sekvencí – nyní jsou možnosti ALN, GCG, PHYLIP, PIR a GDE.

Nedávné zlepšení rozhraní Clustal zahrnuje možnost nahrávat výsledky Clustal W do editoru pomocí Java Applet s názvem Jal View – ten uživateli umožňuje další analýzu alignmentu. Clustal WWW může zhotovit fylogenetické stromy z vícenásobného alignmentu využívající NJ metodu – výsledné evoluční vztahy mohou být zobrazovány jako kladogramy nebo fylogramy. Nejnovější verze softwaru jsou k dispozici pro Windows, Mac OS a Unix/Linus.

Clustal W a Clustal X jsou aktivně udržovány a aktualizovány. Nedávné zlepšení zahrnuje možnost uložit oba alignmenty a fylogenetické stromy v NEXUS formátu, aby bylo docíleno kompatibility s množstvím fylogenetických stromů.

Program je pro řazení sekvencí využit v rámci analýz v prostředí R pomocí balíku ape.

Porovnání MSA nástrojů

Trh nabízí mnoho MSA nástrojů a také je jich mnoho neustále vyvíjeno za účelem zlepšení přesnosti nalezení alignmentu. Není možné vytvořit přesnou MSA metodu pro všechny typy případů.

Vyhodnocení výkonu MSAs nástrojů probíhá na základě manuálně propracovaných zdrojů BAliBASE. PREFAB a SABmark. Fylogenetické nástroje se měří pomocí simulovaných sekvencí, které ale také nemohou poskytnout vysvětlení pro všechny evoluční aspekty.

Porovnání podle:

přesnosti:
- ProbCons překonal svou přesností Kalign, MAFFT (FFT-NS-2), MAFFT(L-INS-i), Multain, Muscle, SATe, Dialign-TX, T-Coffe a také Clustal Omega
- Druhým nejpřesnějším je SATe
- Clustal Omega je v žebříčku přesnosti alignmentu až ve druhé polovině hodnocených, podobně jako Dialign-TX

rychlosti:
- Nejrychlejším hodnoceným nástrojem je MUSCLES
- Následuje MAFFT(FFT-NS-2), Multain, Kalign a Clustal Omega.

Všeobecně Clustal Omega i Dialign-TX, které jsou založeny na Hidden Markov Model přístupu, jsou hodnoceny poměrně nechvalně. Zvláště v případě velkých indel velikostí a rozsáhlých sekvenčních délek vyhodnocují poměrně nekvalitní alignment.

Literatura

M. A. Larkin et al. (2007): Clustal W and Clustal X version 2.0. In: Bioinformatics. Bd. 23, S. 2947–2948. PMID 17846036
R. Chenna et al. (2003): Multiple sequence alignment with the Clustal series of programs. In: Nucleic Acid Research. Bd. 31, S. 3497–3500.
J. D. Thompson et al. (1997): The ClustalX windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. In: Nucleic Acids Research. Bd. 25, S. 4876–4882. PMID 9396791
J. D. Thompson et al. (1994): CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. IN: Nucleic Acids Research. Bd. 22, S. 4673–4680.
Pervez et al. (2014): Evaluating the Accuracy and Efficiency of Multiple Sequence Alignment Methods. IN: Libertas Academica. Bd. 10, S. 205–217. Doi: 10.4137/EBO.S19199.

Externí odkazy

Oficiální web