Adam: различия между версиями
Перейти к навигации
Перейти к поиску
In.wiki (комментарии | вклад) (Новая страница: «'''Adam'''{{r|DeBa}} (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) —...») |
In.wiki (комментарии | вклад) |
||
Строка 1: | Строка 1: | ||
− | '''Adam'''{{ | + | '''Adam'''<ref name=DeBa>{{cite arXiv |
+ | |author=Kingma Diederik, Jimmy Ba | ||
+ | |eprint=1412.6980 | ||
+ | |title=Adam: A method for stochastic optimization | ||
+ | |year=2014 | ||
+ | |class=cs.LG | ||
+ | }} | ||
+ | </ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) — | ||
Является обновлением оптимизатора [[RMSProp]]. | Является обновлением оптимизатора [[RMSProp]]. |
Версия от 06:49, 22 августа 2025
Adam[1] (сокращение от «метод адаптивной оценки моментов», англ. Adaptive Moment Estimation) —
Является обновлением оптимизатора RMSProp.
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры , а функция потерь , где отражает индекс текущей итерации (отчёт начинается с ), пересчёт параметра алгоритмом Adam задаётся формулами
где является малой добавкой, используемой для предотвращения деления на 0, а и являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.