| Предположим, что мы кодируем предыдущий пример «aaabdaaabac» с заданным размером словаря 6. Тогда сначала он будет закодирован как «0, 0, 0, 1, 2, 0, 0, 0, 1, 0, 3» с словарем «a=0, b=1, d=2, c=3». Затем всё продолжится, как и раньше, и получится «4, 5, 2, 4, 5, 0, 3» с словарем «a=0, b=1, d=2, c=3, aa=4, ab=5». Пока что это, по сути, то же самое, что и раньше. Однако, если бы мы указали размер словаря 5, то процесс остановился бы на слове «a=0, b=1, d=2, c=3, aa=4», так что пример был бы закодирован как «4, 0, 1, 2, 4, 0, 1, 0, 3». И наоборот, если бы мы указали размер словаря 8, то он был бы закодирован как «7, 6, 0, 3» со словарем «a=0, b=1, d=2, c=3, aa=4, ab=5, aaab=6, aaabd=7». Это не максимально эффективно с точки зрения сжатия последовательности, но модифицированный BPE не стремится к максимальному сжатию набора данных, а стремится к его эффективному<ref>При этом эффективность кодирования для целей обучения конкретной языковой модели определяется соображениями её разработчика о её архитектуре и доступными аппаратными средствами.</ref> кодированию для обучения языковой модели<ref>{{Cite book|last=Pai|first=Suhas|title=Designing Large Language Model Applications: A Holistic Approach to LLMs|publisher=[[O'Reilly Media]]|date=2025-03-06|isbn=978-1-0981-5046-4|language=en}}</ref>. | | Предположим, что мы кодируем предыдущий пример «aaabdaaabac» с заданным размером словаря 6. Тогда сначала он будет закодирован как «0, 0, 0, 1, 2, 0, 0, 0, 1, 0, 3» с словарем «a=0, b=1, d=2, c=3». Затем всё продолжится, как и раньше, и получится «4, 5, 2, 4, 5, 0, 3» с словарем «a=0, b=1, d=2, c=3, aa=4, ab=5». Пока что это, по сути, то же самое, что и раньше. Однако, если бы мы указали размер словаря 5, то процесс остановился бы на слове «a=0, b=1, d=2, c=3, aa=4», так что пример был бы закодирован как «4, 0, 1, 2, 4, 0, 1, 0, 3». И наоборот, если бы мы указали размер словаря 8, то он был бы закодирован как «7, 6, 0, 3» со словарем «a=0, b=1, d=2, c=3, aa=4, ab=5, aaab=6, aaabd=7». Это не максимально эффективно с точки зрения сжатия последовательности, но модифицированный BPE не стремится к максимальному сжатию набора данных, а стремится к его эффективному<ref>При этом эффективность кодирования для целей обучения конкретной языковой модели определяется соображениями её разработчика о её архитектуре и доступными аппаратными средствами.</ref> кодированию для обучения языковой модели<ref>{{Cite book|last=Pai|first=Suhas|title=Designing Large Language Model Applications: A Holistic Approach to LLMs|publisher=[[O'Reilly Media]]|date=2025-03-06|isbn=978-1-0981-5046-4|language=en}}</ref>. |