Adam: различия между версиями

Версия от 06:49, 22 августа 2025

Adam^[1] (сокращение от «метод адаптивной оценки моментов», англ. Adaptive Moment Estimation) —

Является обновлением оптимизатора RMSProp.

В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры $w^ {(t)}$ , а функция потерь $L ^ {(t)}$ , где $t$ отражает индекс текущей итерации (отчёт начинается с $0$ ), пересчёт параметра алгоритмом Adam задаётся формулами $m_w ^ {(t+1)} \leftarrow \beta_1 m_w ^ {(t)} + (1 - \beta_1) \nabla _w L ^ {(t)}$ $v_w ^ {(t+1)} \leftarrow \beta_2 v_w ^ {(t)} + (1 - \beta_2) (\nabla _w L ^ {(t)} )^2$ $\hat{m}_w=\frac{m_w ^ {(t+1)}}{1 - \beta_1 ^{t+1}}$ $\hat{v}_w=\frac{ v_w ^ {(t+1)}}{1 - \beta_2 ^{t+1}}$ $w ^ {(t+1)} \leftarrow w ^ {(t)} - \eta \frac{\hat{m}_w}{\sqrt{\hat{v}_w} + \epsilon}$

где $\epsilon$ является малой добавкой, используемой для предотвращения деления на 0, а $\beta_1$ и $\beta_2$ являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.

Примечания

↑ Kingma Diederik, Jimmy Ba (2014). "Adam: A method for stochastic optimization". arXiv:1412.6980 [cs.LG].

[DeBa-1] Kingma Diederik, Jimmy Ba (2014). "Adam: A method for stochastic optimization". arXiv:1412.6980 [cs.LG].

[1]

@@ Строка 1: / Строка 1: @@
-'''Adam'''{{r|DeBa}} (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) —
+'''Adam'''<ref name=DeBa>{{cite arXiv
+|author=Kingma Diederik, Jimmy Ba
+|eprint=1412.6980
+|title=Adam: A method for stochastic optimization
+|year=2014
+|class=cs.LG
+}}
+</ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) —
 Является обновлением оптимизатора [[RMSProp]].

Adam: различия между версиями

Версия от 06:49, 22 августа 2025

Примечания

Навигация

Поиск