Adam: различия между версиями
In.wiki (комментарии | вклад) |
In.wiki (комментарии | вклад) |
||
Строка 6: | Строка 6: | ||
|class=cs.LG | |class=cs.LG | ||
}} | }} | ||
− | </ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) — | + | </ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) — одна из модернизацией алгоритма [[Стохастический градиентный спуск|стохастического градиентного спуска]], наиболее популярный [[Оптимизаторы в машинном обучении.|оптимизатор в современном машинном обучении.]] |
Является обновлением оптимизатора [[RMSProp]]. | Является обновлением оптимизатора [[RMSProp]]. | ||
Строка 21: | Строка 21: | ||
== Примечания == | == Примечания == | ||
+ | <references /> | ||
+ | [[Категория:Метод стохастического градиентного спуска]] | ||
+ | [[Категория:Оптимизаторы в машинном обучении]] |
Версия от 06:51, 22 августа 2025
Adam[1] (сокращение от «метод адаптивной оценки моментов», англ. Adaptive Moment Estimation) — одна из модернизацией алгоритма стохастического градиентного спуска, наиболее популярный оптимизатор в современном машинном обучении.
Является обновлением оптимизатора RMSProp.
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры , а функция потерь , где отражает индекс текущей итерации (отчёт начинается с ), пересчёт параметра алгоритмом Adam задаётся формулами
где является малой добавкой, используемой для предотвращения деления на 0, а и являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.