Dot plot

Dot plot

Dot plot je nejjednodušší bioinformatickou metodou pro srovnávání 2 sekvencí, tzv. pairwise sequence alignment.

Sequence alignment

Sequence alignment provádíme nejčastěji z důvodů zjištění příbuznosti daných sekvencí, tedy zda jsou dané sekvence homologické (mající stejného předka). Homologní jsou sekvence se sekvenční identitou větší než 35 %, při sekvenční identitě 20–35 % lze uvažovat o homolozích, ale jsou třeba ještě další data a při sekvenční identitě menší než 20 % je sekvence nedostatečná k jakémukoliv odhadování homologie. Dále nám srovnávání sekvencí může poskytnou vodítko při určování funkce, struktury a evoluce proteinu.

Dot plot

Metoda dot plot je ideální k odhalení repetic a oblastí s malou komplexitou. Srovnávané sekvence jsou buď aminokyselinové, nebo nukleotidové. Je možné provádět i tzv. self-dot plot, tedy srovnání sekvence se sebou samotnou, což umožní vyhledávání symetrických sekvenci, repetice (sekvence s vysokým množstvím kopií), inverze (vzájemná výměna bází) a odhalení oblastí s nízkou komplexitou. Dále pomáhá odhalit přeházené domény či frame shift (změna čtecího rámce). Umožňuje odhadnout podobnost sekvencí, ale není pro tuto funkci úplně ideální.

Praktická ukázka

Srovnání 2 nukleotidových sekvencí pomocí dot plotu

Dot plot je jednou z nejstarších metod pro srovnávání 2 sekvencí. Pracuje tak, že srovná jednu sekvenci do řádku a druhou do sloupce. V případě shodného nukleotidu/aminokyselin je zakreslena jeho pozice. Obvykle počítá s několika po sobě jdoucími aminokyselinami či nukleotidy a pole je označeno pouze pokud je dosažené určitého množství shod (treshold). Největší nevýhodou dot plotu je, že generuje příliš mnoho šumu.

Reference

V tomto článku byl použit překlad textu z článku Dot plot (bioinformatics) na anglické Wikipedii.

Literatura

  • (anglicky) Burkhard Rost: Twilight zone of protein sequence alignments, Protein Engineering 12/1999, str. 85–94

Zdroj