Adam: различия между версиями
In.wiki (комментарии | вклад) |
In.wiki (комментарии | вклад) |
||
Строка 8: | Строка 8: | ||
</ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) — одна из модернизацией алгоритма [[Стохастический градиентный спуск|стохастического градиентного спуска]], наиболее популярный [[Оптимизаторы в машинном обучении.|оптимизатор в современном машинном обучении.]] | </ref> (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) — одна из модернизацией алгоритма [[Стохастический градиентный спуск|стохастического градиентного спуска]], наиболее популярный [[Оптимизаторы в машинном обучении.|оптимизатор в современном машинном обучении.]] | ||
− | + | Предложен в 2014 году как обновление оптимизатора [[RMSProp]]<ref name="DeBa" />, основанное на комбинировании его с [[Оптимизатор импульса|оптимизатором импульса]]<ref>{{cite web|url=https://www.oreilly.com/library/view/fundamentals-of-deep/9781491925607/ch04.html|title=4. Beyond Gradient Descent - Fundamentals of Deep Learning [Book]}}</ref>. | |
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры <math> w^ {(t)} </math>, а функция потерь <math> L ^ {(t)} </math>, где <math> t </math> отражает индекс текущей итерации (отчёт начинается с <math> 0 </math>), пересчёт параметра алгоритмом Adam задаётся формулами | В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры <math> w^ {(t)} </math>, а функция потерь <math> L ^ {(t)} </math>, где <math> t </math> отражает индекс текущей итерации (отчёт начинается с <math> 0 </math>), пересчёт параметра алгоритмом Adam задаётся формулами |
Версия от 19:53, 23 августа 2025
Adam[1] (сокращение от «метод адаптивной оценки моментов», англ. Adaptive Moment Estimation) — одна из модернизацией алгоритма стохастического градиентного спуска, наиболее популярный оптимизатор в современном машинном обучении.
Предложен в 2014 году как обновление оптимизатора RMSProp[1], основанное на комбинировании его с оптимизатором импульса[2].
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры , а функция потерь , где отражает индекс текущей итерации (отчёт начинается с ), пересчёт параметра алгоритмом Adam задаётся формулами
где является малой добавкой, используемой для предотвращения деления на 0, а и являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.