Изменения

Перейти к навигации Перейти к поиску
2179 байт добавлено ,  1 месяц назад
нет описания правки
Строка 19: Строка 19:     
где <math>\epsilon</math> является малой добавкой, используемой для предотвращения деления на 0, а <math>\beta_1</math> и <math>\beta_2</math> являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.
 
где <math>\epsilon</math> является малой добавкой, используемой для предотвращения деления на 0, а <math>\beta_1</math> и <math>\beta_2</math> являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.
 +
 +
Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>.
 +
 +
Первоначальное доказательство, устанавливающее сходимость Адама, было неполным, и последующий анализ показал, что Адам сходится не для всех выпуклых целей.<ref>{{cite conference |last1=Reddi |first1=Sashank J. |last2=Kale |first2=Satyen |last3=Kumar |first3=Sanjiv |date=2018 |title=On the Convergence of Adam and Beyond |url=https://openreview.net/forum?id=ryQu7f-RZ |conference=6th International Conference on Learning Representations (ICLR 2018) |arxiv=1904.09237 |doi=}}</ref><ref>{{Cite thesis |last=Rubio |first=David Martínez |title=Convergence Analysis of an Adaptive Method of Gradient Descent |date=2017 |access-date=5 января 2024 г. |degree=Master |publisher=University of Oxford |url=https://damaru2.github.io/convergence_analysis_hypergradient_descent/dissertation_hypergradients.pdf}}</ref> Несмотря на это, «Адам» продолжает использоваться из-за его высокой эффективности на практике.<ref>{{cite conference |last1=Zhang |first1=Yushun |last2=Chen |first2=Congliang |last3=Shi |first3=Naichen |last4=Sun |first4=Ruoyu |last5=Luo |first5=Zhi-Quan |date=2022 |title=Adam Can Converge Without Any Modification On Update Rules |conference=Advances in Neural Information Processing Systems 35 (NeurIPS 2022) |arxiv=2208.09632 |book-title=Advances in Neural Information Processing Systems 35}}</ref>
 +
    
== Примечания ==
 
== Примечания ==

Реклама:

Навигация