Logo bg.boatexistence.com

Защо lstm решава изчезващия градиент?

Съдържание:

Защо lstm решава изчезващия градиент?
Защо lstm решава изчезващия градиент?

Видео: Защо lstm решава изчезващия градиент?

Видео: Защо lstm решава изчезващия градиент?
Видео: Одномерные сверточные сети | Нейросети для анализа текстов 2024, Може
Anonim

LSTMs решават проблема, използвайки уникална структура на адитивния градиент, която включва директен достъп до активиранията на вратата за забравяне, позволявайки на мрежата да насърчава желаното поведение от градиента на грешката, използвайки честа актуализация на портите на всяка времева стъпка от учебния процес.

Как LSTM решава експлодиращия градиент?

Много кратък отговор: LSTM разделя състоянието на клетката (обикновено означено с c) и скрития слой/изход (обикновено означено с h) и прави само адитивни актуализации на c, което прави спомените в c по-стабилни. Така градиентът преминава през c се запазва и е трудно да изчезне (следователно общият градиент е трудно да изчезне).

Как може да се реши проблемът с изчезващия градиент?

Решения: Най-простото решение е използване на други функции за активиране, като ReLU, което не причинява малка производна. Остатъчните мрежи са друго решение, тъй като осигуряват остатъчни връзки направо към по-ранните слоеве.

Какъв проблем решава LSTM?

LSTM. LSTM (съкратено от дългосрочна краткосрочна памет) решава основно проблема с изчезващия градиент при обратно разпространение. LSTM използват механизъм за стробиране, който контролира процеса на запаметяване. Информацията в LSTM може да се съхранява, записва или чете чрез порти, които се отварят и затварят.

Защо LSTM спират вашите градиенти да изчезнат изглед от обратния проход?

Причината за това е, защото, за да се наложи този постоянен поток от грешки, изчислението на градиента беше съкратено, за да не се връща обратно към входните или кандидат-порти.

Препоръчано: