Adam: различия между версиями
In.wiki (комментарии | вклад) |
In.wiki (комментарии | вклад) Метка: визуальный редактор отключён |
||
Строка 19: | Строка 19: | ||
где <math>\epsilon</math> является малой добавкой, используемой для предотвращения деления на 0, а <math>\beta_1</math> и <math>\beta_2</math> являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно. | где <math>\epsilon</math> является малой добавкой, используемой для предотвращения деления на 0, а <math>\beta_1</math> и <math>\beta_2</math> являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно. | ||
+ | |||
+ | Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>. | ||
+ | |||
+ | Первоначальное доказательство, устанавливающее сходимость Адама, было неполным, и последующий анализ показал, что Адам сходится не для всех выпуклых целей.<ref>{{cite conference |last1=Reddi |first1=Sashank J. |last2=Kale |first2=Satyen |last3=Kumar |first3=Sanjiv |date=2018 |title=On the Convergence of Adam and Beyond |url=https://openreview.net/forum?id=ryQu7f-RZ |conference=6th International Conference on Learning Representations (ICLR 2018) |arxiv=1904.09237 |doi=}}</ref><ref>{{Cite thesis |last=Rubio |first=David Martínez |title=Convergence Analysis of an Adaptive Method of Gradient Descent |date=2017 |access-date=5 января 2024 г. |degree=Master |publisher=University of Oxford |url=https://damaru2.github.io/convergence_analysis_hypergradient_descent/dissertation_hypergradients.pdf}}</ref> Несмотря на это, «Адам» продолжает использоваться из-за его высокой эффективности на практике.<ref>{{cite conference |last1=Zhang |first1=Yushun |last2=Chen |first2=Congliang |last3=Shi |first3=Naichen |last4=Sun |first4=Ruoyu |last5=Luo |first5=Zhi-Quan |date=2022 |title=Adam Can Converge Without Any Modification On Update Rules |conference=Advances in Neural Information Processing Systems 35 (NeurIPS 2022) |arxiv=2208.09632 |book-title=Advances in Neural Information Processing Systems 35}}</ref> | ||
+ | |||
== Примечания == | == Примечания == |
Версия от 19:58, 23 августа 2025
Adam[1] (сокращение от «метод адаптивной оценки моментов», англ. Adaptive Moment Estimation) — одна из модернизацией алгоритма стохастического градиентного спуска, наиболее популярный оптимизатор в современном машинном обучении.
Предложен в 2014 году как обновление оптимизатора RMSProp[1], основанное на комбинировании его с оптимизатором импульса[2].
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры , а функция потерь , где отражает индекс текущей итерации (отчёт начинается с ), пересчёт параметра алгоритмом Adam задаётся формулами
где является малой добавкой, используемой для предотвращения деления на 0, а и являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.
Поскольку экспоненциальные скользящие средние градиента и квадрата градиента инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок и вводится коэффициент .
Первоначальное доказательство, устанавливающее сходимость Адама, было неполным, и последующий анализ показал, что Адам сходится не для всех выпуклых целей.[3][4] Несмотря на это, «Адам» продолжает использоваться из-за его высокой эффективности на практике.[5]
Примечания
- ↑ 1,0 1,1 Kingma Diederik, Jimmy Ba (2014). "Adam: A method for stochastic optimization". arXiv:1412.6980 [cs.LG].
- ↑ 4. Beyond Gradient Descent - Fundamentals of Deep Learning [Book] .
- ↑ Reddi, Sashank J.; Kale, Satyen; Kumar, Sanjiv (2018). On the Convergence of Adam and Beyond. 6th International Conference on Learning Representations (ICLR 2018). arXiv:1904.09237.
- ↑ Rubio, David Martínez (2017). Convergence Analysis of an Adaptive Method of Gradient Descent (PDF) (Master thesis). University of Oxford. Дата обращения: 5 января 2024.
{{cite thesis}}
: Проверьте значение даты:|access-date=
(справка) - ↑ Zhang, Yushun; Chen, Congliang; Shi, Naichen; Sun, Ruoyu; Luo, Zhi-Quan (2022). "Adam Can Converge Without Any Modification On Update Rules". Advances in Neural Information Processing Systems 35. Advances in Neural Information Processing Systems 35 (NeurIPS 2022). arXiv:2208.09632.