Изменения

Перейти к навигации Перейти к поиску
Строка 3: Строка 3:     
По аналогии с [[Рекуррентная нейронная сеть|рекуррентными нейронными сетями]] (РНС) трансформеры предназначены для обработки последовательностей, таких как текст на естественном языке, и решения таких задач как [[машинный перевод]] и [[автоматическое реферирование]]. В отличие от РНС, трансформеры не требуют обработки последовательностей по порядку. Например, если входные данные — это текст, то трансформеру не требуется обрабатывать конец текста после обработки его начала. Благодаря этому трансформеры [[Параллельные вычисления|распараллеливаются]] легче чем РНС и могут быть быстрее обучены.<ref name="paper" />
 
По аналогии с [[Рекуррентная нейронная сеть|рекуррентными нейронными сетями]] (РНС) трансформеры предназначены для обработки последовательностей, таких как текст на естественном языке, и решения таких задач как [[машинный перевод]] и [[автоматическое реферирование]]. В отличие от РНС, трансформеры не требуют обработки последовательностей по порядку. Например, если входные данные — это текст, то трансформеру не требуется обрабатывать конец текста после обработки его начала. Благодаря этому трансформеры [[Параллельные вычисления|распараллеливаются]] легче чем РНС и могут быть быстрее обучены.<ref name="paper" />
 +
 +
== Архитектура сети ==
 +
 +
Архитектура трансформер состоит из кодировщика и декодировщика. Кодировщик получает на вход [[Векторное представление слов|векторизованую последовательность]] с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика. Кодировщик и декодировщик состоят из слоев. Слои кодировщика последовательно передают резальтат следующему слою в качестве его входа. Слои декодировщика последовательно передают результат следующему слою вместе с результатом кодировщика в качестве его входа.
 +
 +
Каждый кодировщик состоит из механизма самовнимания (вход из предыдущего слоя) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма самовнимания). Каждый декодировщик состоит из механизма самовнимания (вход из предыдущего слоя), механизма внимания к результатам кодировния (вход из механизма самовнимания и кодировщика) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма внимания).
 +
 +
== Внимание на основе скалярного произведения ==
 +
 +
Каждый механизм внимания параметризован матрицами весов запросов <math>W_Q</math>, весов ключей <math>W_K</math>, весов значений <math>W_V</math>. Для вычисления внимания входного вектора <math>X</math> к вектору <math>Y</math>, вычисляются вектора <math>Q=W_Q X</math>, <math>K=W_K X</math>, <math>V=W_V Y</math>. Эти ветора используются для вычисления результата внимания по формуле:
 +
 +
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>
    
Трансформеры используются в [[Яндекс.Переводчик]]е<ref>{{cite web
 
Трансформеры используются в [[Яндекс.Переводчик]]е<ref>{{cite web
Анонимный участник

Реклама:

Навигация