Generative pre-trained transformer: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
w>Dmitry Rozhkov
(Создано переводом страницы «Generative pre-trained transformer»)
м (32 версии импортировано: Импорт из Википедии)
 
(не показаны 23 промежуточные версии 16 участников)
Строка 1: Строка 1:
 +
{{Значения|GPT}}
 +
[[Файл:Full_GPT_architecture.svg|справа|мини|Оригинальная языковая модель GPT]]
 +
'''Generative pre-trained transformer''' или '''GPT''' ({{lang-ru|[[Генеративный искусственный интеллект|Генеративный]] [[Глубокое обучение|предобученный]] [[Трансформер (модель машинного обучения)|трансформер]]}}) — это тип нейронных [[Языковая модель|языковых моделей]], которые обучаются на больших наборах текстовых данных, чтобы [[Генератор текста|генерировать текст]], схожий с человеческим. [[Глубокое обучение|Предобучение]] относится к начальному процессу обучения на корпусе, в результате которого [[Языковая модель|модель]] учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки [[Естественный язык|естественного языка]] ([[Обработка естественного языка|NLP]]), таких как [[Генератор текста|генерация текста]], [[машинный перевод]] и [[Классификация документов|классификация текста]].
  
[[Файл:Full_GPT_architecture.png|справа|мини| Оригинальная модель GPT]]
+
== Языковые модели GPT от OpenAI ==
'''Generative pre-trained transformer''' ('''GPT''') — это семейство [[Большая языковая модель|больших языковых моделей]] (LLM), представленных американской организацией [[Искусственный интеллект|искусственного интеллекта]] [[OpenAI]] в 2018 году. Как и большинство LLM, модели GPT представляют собой [[Нейронная сеть|искусственные нейронные сети]], основанные на архитектуре [[Трансформер (модель машинного обучения)|трансформера]], предварительно обученные [[Обучение без учителя|без учителя]] на больших наборах данных неразмеченного текста и способные [[Генеративный искусственный интеллект|генерировать]] новый человекоподобный текст.
+
{{Further|OpenAI}}
 +
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=2018-06-11|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=2021-01-26|access-date=2021-01-23|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали [[обучение с учителем]] на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=2017-06-22|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=2020-03-31|access-date=2021-01-23|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полунадзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
  
В период с 2018 по 2023 год OpenAI выпустила четыре основные пронумерованные модели GPT, причем каждая новая версия была значительно более функциональной, чем предыдущая, благодаря увеличению размера (измеряемому количеством обучаемых параметров) и обучению. Модели [[GPT-3]], выпущенные в 2020 году, имеют 175 миллиардов параметров и были обучены на 400 миллиардах токенов текста. OpenAI отказалась публиковать данные о размере или обучении своей последней модели [[GPT-4]], сославшись на «конкурентную среду и последствия для безопасности крупномасштабных моделей»<ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}</ref>. OpenAI использует эти базовые модели GPT-n в качестве основы для различных других продуктов и технологий, включая модели[[Большая языковая модель|, точно настроенные для выполнения инструкций]], которые, в свою очередь, обеспечивают работу службы чат-ботов [[ChatGPT]].
+
# несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путём обучения модели языковым моделированием
 +
# собственное {{Не переведено 3|Дискриминативная модель|дискриминативное (различительное)|en|Discriminative model}} «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.
  
Термин «GPT» также используется в названиях некоторых генеративных LLM, не связанных с OpenAI, таких как серия моделей, вдохновленных GPT-3, созданных EleutherAI, <ref>{{Cite web|url=https://www.infoq.com/news/2021/07/eleutherai-gpt-j/|title=EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J}}</ref> и совсем недавняя [[Cerebras|серия из семи моделей,]] созданных [[Cerebras]]<ref>{{Cite press release|url=https://www.businesswire.com/news/home/20230328005366/en/Cerebras-Systems-Releases-Seven-New-GPT-Models-Trained-on-CS-2-Wafer-Scale-Systems|title=News}}</ref>. Крупные компании в других отраслях (например, продажах, финансах) также используют термин «GPT» в названиях своих услуг, включающих или использующих технологию GPT<ref>https://www.fastcompany.com/90862354/salesforces-einsteingpt-may-be-the-most-meaningful-application-of-ai-chatbots-yet</ref><ref>https://www.forbes.com/sites/jamielsheikh/2023/04/05/the-chatgpt-of-finance-is-here-bloomberg-is-combining-ai-and-fintech/?sh=43b4385e3081</ref>.
+
{| class="wikitable"
 
+
|+Версии GPT от [[OpenAI]]
== История ==
+
!
11 июня 2018 года [[OpenAI]] опубликовала документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором был представлен первый ''генеративный предварительно обученный преобразователь'' (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>. До этого самые эффективные нейронные модели НЛП в основном использовали [[обучение с учителем]] на больших объемах размеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование в наборах данных, которые не были хорошо аннотированы, а также делала обучение очень больших языковых моделей непомерно дорогим и трудоёмким<ref name="gpt1paper" />.
+
!Использование
 
+
!Архитектура
«Полууправляемый» подход, который OpenAI использовала со своим исходным GPT, включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и управляемая дискриминационная «точная настройка». этап, на котором эти параметры были адаптированы к целевой задаче<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFRadfordNarasimhanSalimansSutskever2018">Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). [https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] <span class="cs1-format">(PDF)</span>. [[OpenAI]]. p.&nbsp;12. [https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 26 January 2021<span class="reference-accessdate">. Retrieved <span class="nowrap">23 January</span> 2021</span>.</cite></ref>.
+
!Количество параметров
 +
!Тренировочные данные
 +
!Дата выпуска
 +
|-
 +
|{{iw|GPT-1}}
 +
|Общее
 +
|12-уровневый декодер-[[Трансформер (модель машинного обучения)|трансформер]] с 12 головками (без кодировщика), за которым следует [[Линейный софтмакс (машинное обучение)|линейный софтмакс]].
 +
|117 миллионов
 +
|[[BookCorpus]]: 4,5 ГБ текста из 7000 неизданных книг разных жанров.<ref>{{Cite conference|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|conference=IEEE International Conference on Computer Vision (ICCV) 2015|pages=19–27|arxiv=1506.06724|access-date=2023-02-07|archive-date=2023-02-05|archive-url=https://web.archive.org/web/20230205222219/https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|url-status=live}}</ref>
 +
|11 июня 2018<ref name="gpt1paper2">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=2018-06-11|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=2021-01-26|access-date=2021-01-23|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>
 +
|-
 +
|{{Не переведено 3|GPT-2|GPT-2|en|GPT-2}}
 +
|Общее
 +
|GPT-1, но с изменённой {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}.
 +
|1,5 миллиарда ({{рост}}1 273 000 %)
 +
|WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на [[Reddit]].
 +
|14 февраля 2019
 +
|-
 +
|[[GPT-3]]
 +
|Общее
 +
|GPT-2, но с изменениями для возможности масштабирования в большем объёме.
 +
|175 миллиардов ({{рост}}11 566 %)
 +
|570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных [[Common Crawl]], WebText, английской Википедии, а также [[BookCorpus]].
 +
|11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref>
 +
|-
 +
|[[InstructGPT]] (GPT-3.5)
 +
|Разговор
 +
|GPT-3, {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенный|en|Fine-tuning (machine learning)}} для выполнения инструкций с использованием [[Обучение с подкреплением на основе отзывов людей|обратной связи с человеком]].
 +
|175 миллиардов<ref>{{cite journal|last1=Ouyang|first1=Long|last2=Wu|first2=Jeff|last3=Jiang|first3=Xu|last4=Almeida|first4=Diogo|last5=Wainwright|first5=Carroll L.|last6=Mishkin|first6=Pamela|last7=Zhang|first7=Chong|last8=Agarwal|first8=Sandhini|last9=Slama|first9=Katarina|last10=Ray|first10=Alex|last11=Schulman|first11=John|last12=Hilton|first12=Jacob|last13=Kelton|first13=Fraser|last14=Miller|first14=Luke|last15=Simens|first15=Maddie|last16=Askell|first16=Amanda|last17=Welinder|first17=Peter|last18=Christiano|first18=Paul|last19=Leike|first19=Jan|last20=Lowe|first20=Ryan|title=Training language models to follow instructions with human feedback|date=2022-03-04|arxiv=2203.02155|display-authors=3}}</ref>
 +
|{{dunno}}
 +
|4 марта 2022
 +
|-
 +
|[[ChatGPT]]
 +
|Диалог
 +
|Использует [[InstructGPT|GPT-3.5]] и {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенн|en|Fine-tuning (machine learning)}} (подход к {{Не переведено 3|Трансферное обучение|трансферному обучению|en|Transfer learning}}) как с [[Обучение с учителем|обучением с учителем]], так и с [[Обучение с подкреплением на основе отзывов людей|RLHF]] (обучение с подкреплением на основе отзывов людей).
 +
|{{dunno}}
 +
|{{dunno}}
 +
|30 ноября 2022
 +
|-
 +
|[[GPT-4]]
 +
|Общее
 +
|Также обучен на основе предсказания текста и основан на [[Обучение с подкреплением|обучении с подкреплением.]] Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.<ref>{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|last=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16}}</ref>
 +
|{{dunno}}
 +
|{{dunno}}
 +
|14 марта 2023
 +
|}
  
== Базовые модели GPT ==
+
== Другие (производные) модели GPT ==
 +
После того, как [[OpenAI]] выпустила свою модель GPT-3, [[EleutherAI]] выпустила ряд [[Большие языковые модели|больших языковых моделей]] (LLM) с [[Открытое программное обеспечение|открытым исходным кодом]], и её модель [[GPT-J]] привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
 
{| class="wikitable"
 
{| class="wikitable"
|+Версии OpenAI GPT
+
|+Основные GPT от других разработчиков
! Модель
+
!
! Архитектура
+
!Использование
! Количество параметров
+
!Архитектура
! Тренировочные данные
+
!Количество параметров
! Дата выпуска
+
!Тренировочные данные
 +
!Дата выпуска
 +
!Разработчик
 
|-
 
|-
| Оригинальный GPT (GPT-1)
+
|[[GPT-J]]
| 12-уровневый декодер Transformer с 12 головками (без кодировщика), за которым следует linear-softmax.
+
|Общее
| 117 миллионов
+
|Параллельный декодер
| BookCorpus : <ref>{{Cite conference|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|arxiv=1506.06724|url-status=live}}</ref> 4,5 ГБ текста из 7000 неопубликованных книг разных жанров.
+
|6 миллиардов
| {{Dts|2018|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-unsupervised|title=Improving language understanding with unsupervised learning|website=openai.com|archive-url=https://web.archive.org/web/20230318210736/https://openai.com/research/language-unsupervised|archive-date=2023-03-18|access-date=2023-03-18|url-status=live}}</ref>
+
|Набор данных объёмом 825 ГБ с [[Открытое программное обеспечение|открытым исходным кодом]] (называемый «кучей»)
 +
|9 июня 2021
 +
|[[EleutherAI]]
 
|-
 
|-
| ГПТ-2
+
|[[BLOOM]]
| GPT-1, но с измененной нормализацией
+
|Общее
| 1,5 миллиарда
+
|[[Трансформер (модель машинного обучения)|Трансформер]] только для декодера
| WebText: 40 ГБ текста, 8 миллионов документов с 45 миллионов веб-страниц, за которые проголосовали на Reddit.
+
|176 миллиардов
| {{Dts|2019|February|14}}
+
|Данные 46 [[Естественный язык|естественных языков]] и 13 [[Язык программирования|языков программирования]]; Всего 1,6 терабайт предварительно обработанного текста.
 +
|6 июля 2022
 +
|[[Hugging Face]]
 
|-
 
|-
| [[GPT-3|ГПТ-3]]
+
|[[BioGPT]]
| GPT-2, но с модификацией, позволяющей увеличить масштаб
+
|[[Биомедицина|Биомедицинский]] контент<ref name="pmid36156661">{{cite journal|author=Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H|display-authors=etal|date=2022-09-24|title=BioGPT: generative pre-trained transformer for biomedical text generation and mining.|url=https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org%2Fcite&retmode=ref&cmd=prlinks&id=36156661|journal=Brief Bioinform|volume=23|issue=6|pages=|doi=10.1093/bib/bbac409|pmc=|pmid=36156661|access-date=2023-02-07|archive-date=2023-04-01|archive-url=https://web.archive.org/web/20230401192557/https://academic.oup.com/bib/article-abstract/23/6/bbac409/6713511?redirectedFrom=fulltext}}</ref><ref>{{cite web|url=https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|title=BioGPT is a Microsoft language model trained for biomedical tasks|author=Matthias Bastian|website=The Decoder|date=2023-01-29|archive-url=https://web.archive.org/web/20230207174627/https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|archive-date=2023-02-07|access-date=2023-02-07}}</ref>
| 175 миллиардов
+
|Как в [[GPT-2]] Medium (24 слоев, 16 головок)
| 570 ГБ открытого текста, 0,4 триллиона токенов. В основном CommonCrawl, WebText, английская Википедия и два корпуса книг (Книги1 и Книги2).
+
|347 миллионов
| {{Dts|2020|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref> (затем 15 марта 2022 г., для пересмотра, в конечном итоге получившего название [[GPT-3|GPT-3.5]] )
+
|Непустые записи из [[PubMed]] (всего 1,5 миллиона).
 +
|24 сентября 2022
 +
|[[Microsoft]]
 
|-
 
|-
| [[GPT-4|ГПТ-4]]
 
| Также обучен как предсказанию текста, так и RLHF; принимает как текст, так и изображения в качестве входных данных. Дальнейшие подробности не разглашаются. <ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFOpenAI2023">OpenAI (2023). [https://cdn.openai.com/papers/gpt-4.pdf "GPT-4 Technical Report"] <span class="cs1-format">(PDF)</span>. [https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 2023-03-14<span class="reference-accessdate">. Retrieved <span class="nowrap">2023-03-16</span></span>.</cite></ref>
 
| (Недоступен)
 
| (Недоступен)
 
| {{Dts|2023|March|14}}
 
 
|}
 
|}
  
== Связанные модели и продукты ==
+
== Примечания ==
В январе 2022 года OpenAI представила InstructGPT, серию моделей, которые были [[Большая языковая модель|точно настроены для выполнения инструкций]] с использованием комбинации обучения [[Обучение с учителем|с учителем]] и [[Обучение с подкреплением на основе отзывов людей|обучения с подкреплением на основе отзывов людей]] (RLHF) на базовых языковых моделях GPT-3. 
+
{{примечания}}
  
В ноябре 2022 года OpenAI запустила [[ChatGPT]], интерфейс онлайн-чата, основанный на языковой модели с настройкой инструкций, обученной аналогично InstructGPT.
+
{{вс}}
 +
{{Обработка естественного языка}}
 +
{{Искусственный интеллект}}
 +
{{Машинное обучение}}
 +
{{Генеративный ИИ}}
  
== Примечания ==
+
[[Категория:Виртуальные собеседники]]
{{Примечания|refs=<ref name=instructgpt-blog>{{cite web |title=Aligning language models to follow instructions |url=https://openai.com/research/instruction-following |website=openai.com |access-date=23 March 2023 |archive-date=23 March 2023 |archive-url=https://web.archive.org/web/20230323110040/https://openai.com/research/instruction-following |url-status=live }}</ref>
+
[[Категория:Программное обеспечение по алфавиту]]
<ref name=instructgpt-paper>{{cite journal |last1=Ouyang |first1=Long |last2=Wu |first2=Jeff |last3=Jiang |first3=Xu |last4=Almeida |first4=Diogo |last5=Wainwright |first5=Carroll L. |last6=Mishkin |first6=Pamela |last7=Zhang |first7=Chong |last8=Agarwal |first8=Sandhini |last9=Slama |first9=Katarina |last10=Ray |first10=Alex |last11=Schulman |first11=John |last12=Hilton |first12=Jacob |last13=Kelton |first13=Fraser |last14=Miller |first14=Luke |last15=Simens |first15=Maddie |last16=Askell |first16=Amanda |last17=Welinder |first17=Peter |last18=Christiano |first18=Paul |last19=Leike |first19=Jan |last20=Lowe |first20=Ryan |title=Training language models to follow instructions with human feedback |date=4 March 2022 |arxiv=2203.02155 |display-authors=3 }}</ref>
+
[[Категория:Машинное обучение]]
<ref name=chatgpt-blog>{{Cite web |title=Introducing ChatGPT |url=https://openai.com/blog/chatgpt |access-date=2023-03-16 |website=openai.com |language=en-US |archive-date=2023-03-16 |archive-url=https://web.archive.org/web/20230316001700/https://openai.com/blog/chatgpt/ |url-status=live }}</ref>}}
 
[[Категория:Программное обеспечение с лицензией MIT]]
 
 
[[Категория:Большие языковые модели]]
 
[[Категория:Большие языковые модели]]
[[Категория:Страницы с непроверенными переводами]]
+
[[Категория:Глубокое обучение]]
 +
[[Категория:Обработка естественного языка]]
 +
[[Категория:Генеративный искусственный интеллект]]

Текущая версия от 23:15, 10 августа 2025

Оригинальная языковая модель GPT

Generative pre-trained transformer или GPT (рус. Генеративный предобученный трансформер) — это тип нейронных языковых моделей, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Языковые модели GPT от OpenAI[править | править код]

Шаблон:Further 11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")[англ.] обучения на основе модели GPT включает два этапа:

  1. несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путём обучения модели языковым моделированием
  2. собственное дискриминативное (различительное)[англ.] «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.
Версии GPT от OpenAI
Использование Архитектура Количество параметров Тренировочные данные Дата выпуска
GPT-1[англ.] Общее 12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс. 117 миллионов BookCorpus: 4,5 ГБ текста из 7000 неизданных книг разных жанров.[3] 11 июня 2018[4]
GPT-2[англ.] Общее GPT-1, но с изменённой нормализацией[англ.]. 1,5 миллиарда (1 273 000 %) WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на Reddit. 14 февраля 2019
GPT-3 Общее GPT-2, но с изменениями для возможности масштабирования в большем объёме. 175 миллиардов (11 566 %) 570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных Common Crawl, WebText, английской Википедии, а также BookCorpus. 11 июня 2020[5]
InstructGPT (GPT-3.5) Разговор GPT-3, тонко настроенный[англ.] для выполнения инструкций с использованием обратной связи с человеком. 175 миллиардов[6] Неизвестно 4 марта 2022
ChatGPT Диалог Использует GPT-3.5 и тонко настроенн[англ.] (подход к трансферному обучению[англ.]) как с обучением с учителем, так и с RLHF (обучение с подкреплением на основе отзывов людей). Неизвестно Неизвестно 30 ноября 2022
GPT-4 Общее Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.[7] Неизвестно Неизвестно 14 марта 2023

Другие (производные) модели GPT[править | править код]

После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.

Основные GPT от других разработчиков
Использование Архитектура Количество параметров Тренировочные данные Дата выпуска Разработчик
GPT-J Общее Параллельный декодер 6 миллиардов Набор данных объёмом 825 ГБ с открытым исходным кодом (называемый «кучей») 9 июня 2021 EleutherAI
BLOOM Общее Трансформер только для декодера 176 миллиардов Данные 46 естественных языков и 13 языков программирования; Всего 1,6 терабайт предварительно обработанного текста. 6 июля 2022 Hugging Face
BioGPT Биомедицинский контент[8][9] Как в GPT-2 Medium (24 слоев, 16 головок) 347 миллионов Непустые записи из PubMed (всего 1,5 миллиона). 24 сентября 2022 Microsoft

Примечания[править | править код]

  1. Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya; Radford, Alec. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
  2. 2,0 2,1 Tsvetkov, Yulia. Opportunities and Challenges in Working with Low-Resource Languages. Carnegie Mellon University (22 июня 2017). Дата обращения: 23 января 2021. Архивировано 31 марта 2020 года.
  3. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Архивировано 5 февраля 2023. Дата обращения: 7 февраля 2023.
  4. Salimans, Tim; Narasimhan, Karthik; Radford, Alec; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
  5. Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.
  6. Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (2022-03-04). "Training language models to follow instructions with human feedback". arXiv:2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)
  7. OpenAI. GPT-4 Technical Report (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года.
  8. Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. (2022-09-24). "BioGPT: generative pre-trained transformer for biomedical text generation and mining". Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661. Архивировано 1 апреля 2023. Дата обращения: 7 февраля 2023.{{cite journal}}: Проект:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  9. Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder (29 января 2023). Дата обращения: 7 февраля 2023. Архивировано 7 февраля 2023 года.

Ошибка Lua в Модуль:External_links на строке 409: attempt to index field 'wikibase' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value).