Изменения

Перейти к навигации Перейти к поиску
3843 байта добавлено ,  1 месяц назад
Строка 26: Строка 26:  
== Варианты ==
 
== Варианты ==
 
Существуют, также, многочисленные варианты и усовершенствования алгоритма.
 
Существуют, также, многочисленные варианты и усовершенствования алгоритма.
 +
 +
Популярность Adam вдохновила исследователей на создание множества его усовершенствованных вариантов.
 +
 +
Вот некоторые примеры:
 +
 +
* Градиенты, улучшенные по Нестерову: NAdam<ref>{{Cite journal|last=Dozat|first=T.|date=2016|title=Incorporating Nesterov Momentum into Adam|s2cid=70293087|language=en}}</ref>, FASFA<ref>{{Cite journal|last=Naveen|first=Philip|date=2022-08-09|title=FASFA: A Novel Next-Generation Backpropagation Optimizer|url=http://dx.doi.org/10.36227/techrxiv.20427852.v1|access-date=2022-11-19|doi=10.36227/techrxiv.20427852.v1|doi-access=free}}</ref>;
 +
 +
* Различные интерпретации информации второго порядка: Powerpropagation<ref>{{Cite book|last=Whye|first=Schwarz, Jonathan Jayakumar, Siddhant M. Pascanu, Razvan Latham, Peter E. Teh, Yee|title=Powerpropagation: A sparsity inducing weight reparameterisation|url=http://worldcat.org/oclc/1333722169|date=2021-10-01|oclc=1333722169}}</ref> и AdaSqrt<ref>{{Cite journal|last1=Hu|first1=Yuzheng|last2=Lin|first2=Licong|last3=Tang|first3=Shange|date=2019-12-20|title=Second-order Information in First-order Optimization Methods|arxiv=1912.09926}}</ref>;
 +
 +
* Использование [[Норма Чебышева|нормы Чебышева]]: AdaMax<ref name="Adam2014">{{cite arXiv|first1=Diederik|last1=Kingma|first2=Jimmy|last2=Ba|eprint=1412.6980|title=Adam: A Method for Stochastic Optimization|year=2014|class=cs.LG}}</ref>;
 +
* AMSGrad<ref>{{Cite journal|last1=Reddi|first1=Sashank J.|last2=Kale|first2=Satyen|last3=Kumar|first3=Sanjiv|date=2018|title=On the Convergence of Adam and Beyond|arxiv=1904.09237}}</ref>, который улучшает сходимость по сравнению с Adam, используя максимум квадратов прошлых градиентов вместо экспоненциального среднего. AdamX<ref>{{Cite journal|last1=Tran|first1=Phuong Thi|last2=Phong|first2=Le Trieu|date=2019|title=On the Convergence Proof of AMSGrad and a New Version|url=https://ieeexplore.ieee.org/document/8713445|journal=IEEE Access|volume=7|pages=61706–61716|doi=10.1109/ACCESS.2019.2916341|issn=2169-3536|arxiv=1904.03590|bibcode=2019IEEEA...761706T}}</ref> дополнительно улучшает сходимость по сравнению с AMSGrad.
 +
* AdamW<ref>{{Cite journal|last1=Tran|first1=Phuong Thi|last2=Phong|first2=Le Trieu|date=2019|title=On the Convergence Proof of AMSGrad and a New Version|url=https://ieeexplore.ieee.org/document/8713445|journal=IEEE Access|volume=7|pages=61706–61716|doi=10.1109/ACCESS.2019.2916341|issn=2169-3536|arxiv=1904.03590|bibcode=2019IEEEA...761706T}}</ref> который использует [[Метод регуляризации Тихонова|регуляризацию Тихонова]].
 +
* Стохастический градиентный спуск на основе знака. Несмотря на то, что оптимизация на основе знака восходит к методу [[Rprop]], в 2018 году исследователи попытались упростить Adam, исключив из рассмотрения величину стохастического градиента и рассматривая только его знак<ref>{{cite web|url=https://openreview.net/forum?id=S1EwLkW0W|title=Dissecting Adam: The Sign, Magnitude and Variance of Stochastic Gradients|date=15 February 2018|last1=Balles|first1=Lukas|last2=Hennig|first2=Philipp}}</ref><ref>{{cite web|url=https://proceedings.mlr.press/v80/bernstein18a.html|title=SignSGD: Compressed Optimisation for Non-Convex Problems|date=3 July 2018|pages=560–569}}</ref>.
    
== Примечания ==
 
== Примечания ==

Реклама:

Навигация