Изменения

Трансформер (модель машинного обучения) (править)

Версия от 15:40, 1 апреля 2021

2 байта добавлено , 4 года назад

орфография

Строка 18: Строка 18:

== Внимание на основе скалярного произведения ==

−

Каждый механизм внимания параметризован матрицами весов запросов <math>W_Q</math>, весов ключей <math>W_K</math>, весов значений <math>W_V</math>. Для вычисления внимания входного вектора <math>X</math> к вектору <math>Y</math>, вычисляются вектора <math>Q=W_Q X</math>, <math>K=W_K X</math>, <math>V=W_V Y</math>. Эти ~~ветора~~ используются для вычисления результата внимания по формуле:

+

Каждый механизм внимания параметризован матрицами весов запросов <math>W_Q</math>, весов ключей <math>W_K</math>, весов значений <math>W_V</math>. Для вычисления внимания входного вектора <math>X</math> к вектору <math>Y</math>, вычисляются вектора <math>Q=W_Q X</math>, <math>K=W_K X</math>, <math>V=W_V Y</math>. Эти вектора используются для вычисления результата внимания по формуле:

<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>

Анонимный участник

178.176.77.226

Изменения

Трансформер (модель машинного обучения) (править)

Версия от 15:40, 1 апреля 2021

Навигация

Поиск