Byte Pair Encoding: различия между версиями
In.wiki (комментарии | вклад) (Новая страница: «В информатике '''кодирование пар байтов''', Byte Pair Encoding (BPE)[1][2] или кодировани...») |
In.wiki (комментарии | вклад) |
||
Строка 1: | Строка 1: | ||
− | В [[Информатика|информатике]] '''кодирование пар байтов''', Byte Pair Encoding (BPE)[1][2] или кодирование диграмм[3] — это алгоритм, впервые описанный в 1994 году Филипом Гейджем для кодирования строк текста в строки меньшего размера путём создания и использования таблицы трансляции[4]. Слегка изменённая версия алгоритма используется в токенизаторах больших языковых моделей. Первоначальная версия алгоритма была ориентирована на сжатие. Она заменяет наиболее часто встречающуюся пару байтов новым байтом, отсутствующим в исходном наборе данных. Для восстановления исходного набора данных требуется таблица поиска замен. Изменённая версия создаёт | + | В [[Информатика|информатике]] '''кодирование пар байтов''', Byte Pair Encoding (BPE)[1][2] или кодирование диграмм[3] — это алгоритм, впервые описанный в 1994 году Филипом Гейджем для кодирования строк текста в строки меньшего размера путём создания и использования таблицы трансляции[4]. Слегка изменённая версия алгоритма используется в [[Токенизатор|токенизаторах]] [[Большая языковая модель|больших языковых моделей]]. Первоначальная версия алгоритма была ориентирована на [[Сжатие данных|сжатие]]. Она заменяет наиболее часто встречающуюся пару байтов новым байтом, отсутствующим в исходном наборе данных. Для восстановления исходного набора данных требуется [[Таблица поиска|таблица поиска замен]]. Изменённая версия алгоритма создаёт «[[Токен (искусственный интеллект)|токены]]» (единицы распознавания), соответствующие различным объёмам исходного текста, от отдельных символов (включая отдельные цифры или знаки препинания) до целых слов (даже длинных составных слов). |
== Примечания == | == Примечания == | ||
[[Категория:Сжатие данных]] | [[Категория:Сжатие данных]] | ||
[[Категория:Токенизаторы]] | [[Категория:Токенизаторы]] |
Версия от 02:07, 20 августа 2025
В информатике кодирование пар байтов, Byte Pair Encoding (BPE)[1][2] или кодирование диграмм[3] — это алгоритм, впервые описанный в 1994 году Филипом Гейджем для кодирования строк текста в строки меньшего размера путём создания и использования таблицы трансляции[4]. Слегка изменённая версия алгоритма используется в токенизаторах больших языковых моделей. Первоначальная версия алгоритма была ориентирована на сжатие. Она заменяет наиболее часто встречающуюся пару байтов новым байтом, отсутствующим в исходном наборе данных. Для восстановления исходного набора данных требуется таблица поиска замен. Изменённая версия алгоритма создаёт «токены» (единицы распознавания), соответствующие различным объёмам исходного текста, от отдельных символов (включая отдельные цифры или знаки препинания) до целых слов (даже длинных составных слов).