Трансформер (модель машинного обучения): различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
w>EyeBot
м (автоматическая отмена правки участника 77.222.110.115 - R:6B ORES: 0.9373)
Строка 24: Строка 24:
 
== Использование ==
 
== Использование ==
  
Трансформеры используются в [[Яндекс.Переводчик]]е<ref>{{cite web
+
Трансформеры используются в онлайн переводчиках, моделях GPT и DALL-E
|author      = Семен Козлов
 
|url          = https://habr.com/ru/post/341240/
 
|title        = Transformer — новая архитектура нейросетей для работы с последовательностями
 
|lang        = ru
 
|website      =
 
|publisher    = [[Хабр]]
 
|date        = 2017-10-30
 
|accessdate  = 2020-11-03
 
|archive-date = 2020-09-13
 
|archive-url  = https://web.archive.org/web/20200913212109/https://habr.com/ru/post/341240/
 
|url-status  = live
 
}}</ref>, [[Яндекс.Новости|Яндекс.Новостях]]<ref>{{cite web
 
|author      = Тимур Гаскаров
 
|url          = https://habr.com/ru/company/yandex/blog/479662/
 
|title        = Как Яндекс научил искусственный интеллект находить ошибки в новостях
 
|lang        = ru
 
|website      =
 
|publisher    = [[Хабр]]
 
|date        = 2019-12-12
 
|accessdate  = 2020-11-03
 
|archive-date = 2020-12-01
 
|archive-url  = https://web.archive.org/web/20201201120648/https://habr.com/ru/company/yandex/blog/479662/
 
|url-status  = live
 
}}</ref>, [[Google Переводчик]]е<ref>{{cite web
 
|author      = Isaac Caswell, Bowen Liang
 
|url          = https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
 
|title        = Recent Advances in Google Translate
 
|lang        = en
 
|website      =
 
|publisher    = Google AI Blog
 
|date        = 2020-06-08
 
|accessdate  = 2020-11-03
 
|archive-date = 2020-11-02
 
|archive-url  = https://web.archive.org/web/20201102113452/https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
 
|url-status  = live
 
}}</ref>, [[GPT-3]].
 
  
 
== Примечания ==
 
== Примечания ==

Версия от 21:42, 5 марта 2025

Трансфо́рмер (англ. Transformer) — архитектура глубоких нейронных сетей, представленная в 2017 году исследователями из Google Brain[1].

По аналогии с рекуррентными нейронными сетями (РНС) трансформеры предназначены для обработки последовательностей, таких как текст на естественном языке, и решения таких задач как машинный перевод и автоматическое реферирование. В отличие от РНС, трансформеры не требуют обработки последовательностей по порядку. Например, если входные данные — это текст, то трансформеру не требуется обрабатывать конец текста после обработки его начала. Благодаря этому трансформеры распараллеливаются легче чем РНС и могут быть быстрее обучены[1].

Архитектура сети

Архитектура трансформера состоит из кодировщика и декодировщика. Кодировщик получает на вход векторизованую последовательность с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика. Кодировщик и декодировщик состоят из слоев. Слои кодировщика последовательно передают результат следующему слою в качестве его входа. Слои декодировщика последовательно передают результат следующему слою вместе с результатом кодировщика в качестве его входа.

Каждый кодировщик состоит из механизма самовнимания (вход из предыдущего слоя) и нейронной сети с прямой связью (вход из механизма самовнимания). Каждый декодировщик состоит из механизма самовнимания (вход из предыдущего слоя), механизма внимания к результатам кодирования (вход из механизма самовнимания и кодировщика) и нейронной сети с прямой связью (вход из механизма внимания).

Внимание на основе скалярного произведения

Каждый механизм внимания параметризован матрицами весов запросов W Q W_Q , весов ключей W K W_K , весов значений W V W_V . Для вычисления внимания входного вектора X X к вектору Y Y , вычисляются вектора Q = W Q X Q=W_Q X , K = W K X K=W_K X , V = W V Y V=W_V Y . Эти вектора используются для вычисления результата внимания по формуле:

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V

Использование

Трансформеры используются в онлайн переводчиках, моделях GPT и DALL-E

Примечания

  1. 1,0 1,1 Ошибка Lua в Модуль:Sources на строке 1705: attempt to index field 'wikibase' (a nil value).

Ошибка Lua в Модуль:External_links на строке 409: attempt to index field 'wikibase' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value).