LSTM

Dlouhá krátkodobá paměť (Long Short-Term Memory, LSTM)^[1]^[2] je systém hlubokého učení (deep learning) neuronové sítě, který se vyhýbá problému mizejícího gradientu algoritmu zpětného šíření chyby, vyskytujícího se v sítích MLP, ale i v některých sítích RNN, které jsou pak trénovány jejich rozvinutím do hlubokých dopředných sítí, kde se pro každý časový krok vstupní sekvence zpracovávané sítí vytvoří nová vrstva (kombinace rozvinutí a zpětného šíření se nazývá zpětné šíření v čase), tj. chyby pak mohou zpětně proudit přes neomezený počet skrytých vrstev. Cílem LSTM je poskytnout neuronové síti krátkodobou paměť, překlenující tisíce gradientních kroků, tedy „dlouhou krátkodobou paměť“. LSTM se tedy může učit úlohy, které vyžadují vzpomínky na události, které se staly tisíce nebo dokonce miliony diskrétních časových (gradientních) kroků dříve, tj. LSTM funguje i při dlouhých prodlevách mezi významnými událostmi^[3].

Jak LSTM funguje?

LSTM se skládá z buňky, vstupní brány, výstupní brány a brány zapomínání^[4]. Buňka si pamatuje hodnoty v libovolném časovém intervalu a tři brány regulují tok informací do buňky a z buňky. Brány zapomínání rozhodují o tom, jakou informaci z předchozího stavu zahodit, a to tak, že předchozímu stavu v porovnání s aktuálním vstupem přiřadí hodnotu mezi 0 a 1. Hodnota 1 znamená informaci ponechat a hodnota 0 znamená informaci zahodit. Vstupní brány rozhodují o tom, které části nové informace se uloží do aktuálního stavu, přičemž používají stejný systém jako brány zapomínání. Výstupní brány řídí, které části informací v aktuálním stavu se mají vyvést, a to přiřazením hodnoty od 0 do 1 informaci s ohledem na předchozí a aktuální stav. Selektivní výstup relevantních informací z aktuálního stavu umožňuje síti LSTM udržovat užitečné, dlouhodobé závislosti pro vytváření předpovědí, a to jak v aktuálním, tak v budoucích časových krocích.

Reference

V tomto článku byl použit překlad textu z článku Long short-term memory na anglické Wikipedii.

↑ TEAM, Editorial. Introduction to Long Short Term Memory (LSTM). Artificial Intelligence + [online]. 2022-06-27 [cit. 2023-08-15]. Dostupné online. (anglicky)
↑ HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. LSTM can solve hard long time lag problems. In: Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 1996-12-03. Dostupné online. doi:10.5555/2998981.2999048. S. 473–479.
↑ SZLICHTA, Jaroslaw. Order Dependency. Příprava vydání Ling Liu, M. Tamer Özsu. New York, NY: Springer Dostupné online. ISBN 978-1-4614-8265-9. doi:10.1007/978-1-4614-8265-9_80772. S. 2631–2632. (anglicky) DOI: 10.1007/978-1-4614-8265-9_80772.
↑ direct.mit.edu [online]. [cit. 2023-08-15]. Dostupné online.

Zdroj

[1] TEAM, Editorial. Introduction to Long Short Term Memory (LSTM). Artificial Intelligence + [online]. 2022-06-27 [cit. 2023-08-15]. Dostupné online. (anglicky)

[2] HOCHREITER, Sepp; SCHMIDHUBER, Jürgen. LSTM can solve hard long time lag problems. In: Proceedings of the 9th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 1996-12-03. Dostupné online. doi:10.5555/2998981.2999048. S. 473–479.

[3] SZLICHTA, Jaroslaw. Order Dependency. Příprava vydání Ling Liu, M. Tamer Özsu. New York, NY: Springer Dostupné online. ISBN 978-1-4614-8265-9. doi:10.1007/978-1-4614-8265-9_80772. S. 2631–2632. (anglicky) DOI: 10.1007/978-1-4614-8265-9_80772.

[4] direct.mit.edu [online]. [cit. 2023-08-15]. Dostupné online.

[1]

[2]

[3]

[4]