LSTM

Long short-term memory, zkráceně LSTM, česky síť s dlouhou-krátkodobou pamětí, je rekurentní neuronová síť (RNN), jejímž cílem je vypořádat se s problémem mizejícího gradientu, který se vyskytuje v tradičních RNN.[1] Její relativní necitlivost na délku mezery je její výhodou oproti jiným RNN, skrytým Markovovým modelům a dalším metodám učení sekvencí. První zmínky pochází z Německa z roku 1991 od výzkumníka Sepp Hochreiter.

Cílem LSTM je poskytnout RNN krátkodobou paměť, která může trvat tisíce časových kroků, tedy „dlouhou krátkodobou paměť“. Tento typ sítě je schopen se naučit závislost na pořadí[2] (závislosti na pořadí (order dependency) popisuje vztahy mezi lexikografickými uspořádáními množin n-tic[3]), pro použití zpracování textu tedy závislostní syntax. Používá se k řešení klasifikačních a regresních úloh.[4]

Síť je použitelná pro klasifikaci, zpracování a predikci dat na základě časových řad, například v oblasti rukopisu, rozpoznávání řeči, strojového překladu, rozpoznání řeči, ovládání robotů, tvorbě videoher a či rozpoznávání dat ve zdravotnictví.

Jak LSTM funguje?

Buňka LSTM (Long Short-Term Memory) dokáže zpracovávat data sekvenčně a udržovat svůj skrytý stav v čase.

Běžná LSTM se skládá z buňky, vstupní brány, výstupní brány[5] a brány zapomínání[6]. Buňka si pamatuje hodnoty v libovolném časovém intervalu a tři brány regulují tok informací do buňky a z buňky. Brány zapomínání rozhodují o tom, jakou informaci z předchozího stavu zahodit, a to tak, že předchozímu stavu v porovnání s aktuálním vstupem přiřadí hodnotu mezi 0 a 1. (Zaokrouhlená) hodnota 1 znamená informaci ponechat a hodnota 0 znamená informaci zahodit. Vstupní brány rozhodují o tom, které části nové informace se uloží do aktuálního stavu, přičemž používají stejný systém jako brány zapomínání. Výstupní brány řídí, které části informací v aktuálním stavu se mají vyvést, a to přiřazením hodnoty od 0 do 1 informaci s ohledem na předchozí a aktuální stav. Selektivní výstup relevantních informací z aktuálního stavu umožňuje síti LSTM udržovat užitečné, dlouhodobé závislosti pro vytváření předpovědí, a to jak v aktuálním, tak v budoucích časových krocích.

Odkazy

V tomto článku byl použit překlad textu z článku Long short-term memory na anglické Wikipedii.

Reference

  1. https://www.bioinf.jku.at/publications/older/3804.pdf
  2. TEAM, Editorial. Introduction to Long Short Term Memory (LSTM). Artificial Intelligence + [online]. 2022-06-27 [cit. 2023-08-15]. Dostupné online. (anglicky) 
  3. SZLICHTA, Jaroslaw. Order Dependency. Příprava vydání Ling Liu, M. Tamer Özsu. New York, NY: Springer Dostupné online. ISBN 978-1-4614-8265-9. DOI 10.1007/978-1-4614-8265-9_80772. S. 2631–2632. (anglicky) DOI: 10.1007/978-1-4614-8265-9_80772. 
  4. Deep learning vs. signály a časové řady [online]. [cit. 2023-08-15]. Dostupné online. 
  5. HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. LSTM can solve hard long time lag problems. In: Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 1996-12-03. Dostupné online. DOI 10.5555/2998981.2999048. S. 473–479.
  6. direct.mit.edu [online]. [cit. 2023-08-15]. Dostupné online. 

Zdroj