Generative pre-trained transformer: различия между версиями
w>Rubinbot м (Бот: добавление заголовков в сноски; исправление двойных сносок, см. ЧаВо) |
w>Dmitry Rozhkov (Создано переводом страницы «Generative pre-trained transformer») |
||
Строка 1: | Строка 1: | ||
− | |||
− | |||
− | + | [[Файл:Full_GPT_architecture.png|справа|мини| Оригинальная модель GPT]] | |
− | + | '''Generative pre-trained transformer''' ('''GPT''') — это семейство [[Большая языковая модель|больших языковых моделей]] (LLM), представленных американской организацией [[Искусственный интеллект|искусственного интеллекта]] [[OpenAI]] в 2018 году. Как и большинство LLM, модели GPT представляют собой [[Нейронная сеть|искусственные нейронные сети]], основанные на архитектуре [[Трансформер (модель машинного обучения)|трансформера]], предварительно обученные [[Обучение без учителя|без учителя]] на больших наборах данных неразмеченного текста и способные [[Генеративный искусственный интеллект|генерировать]] новый человекоподобный текст. | |
− | |||
− | + | В период с 2018 по 2023 год OpenAI выпустила четыре основные пронумерованные модели GPT, причем каждая новая версия была значительно более функциональной, чем предыдущая, благодаря увеличению размера (измеряемому количеством обучаемых параметров) и обучению. Модели [[GPT-3]], выпущенные в 2020 году, имеют 175 миллиардов параметров и были обучены на 400 миллиардах токенов текста. OpenAI отказалась публиковать данные о размере или обучении своей последней модели [[GPT-4]], сославшись на «конкурентную среду и последствия для безопасности крупномасштабных моделей»<ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}</ref>. OpenAI использует эти базовые модели GPT-n в качестве основы для различных других продуктов и технологий, включая модели[[Большая языковая модель|, точно настроенные для выполнения инструкций]], которые, в свою очередь, обеспечивают работу службы чат-ботов [[ChatGPT]]. | |
− | |||
− | {| | + | Термин «GPT» также используется в названиях некоторых генеративных LLM, не связанных с OpenAI, таких как серия моделей, вдохновленных GPT-3, созданных EleutherAI, <ref>{{Cite web|url=https://www.infoq.com/news/2021/07/eleutherai-gpt-j/|title=EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J}}</ref> и совсем недавняя [[Cerebras|серия из семи моделей,]] созданных [[Cerebras]]<ref>{{Cite press release|url=https://www.businesswire.com/news/home/20230328005366/en/Cerebras-Systems-Releases-Seven-New-GPT-Models-Trained-on-CS-2-Wafer-Scale-Systems|title=News}}</ref>. Крупные компании в других отраслях (например, продажах, финансах) также используют термин «GPT» в названиях своих услуг, включающих или использующих технологию GPT<ref>https://www.fastcompany.com/90862354/salesforces-einsteingpt-may-be-the-most-meaningful-application-of-ai-chatbots-yet</ref><ref>https://www.forbes.com/sites/jamielsheikh/2023/04/05/the-chatgpt-of-finance-is-here-bloomberg-is-combining-ai-and-fintech/?sh=43b4385e3081</ref>. |
− | | | + | |
− | + | == История == | |
− | + | 11 июня 2018 года [[OpenAI]] опубликовала документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором был представлен первый ''генеративный предварительно обученный преобразователь'' (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>. До этого самые эффективные нейронные модели НЛП в основном использовали [[обучение с учителем]] на больших объемах размеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование в наборах данных, которые не были хорошо аннотированы, а также делала обучение очень больших языковых моделей непомерно дорогим и трудоёмким<ref name="gpt1paper" />. | |
− | + | ||
− | + | «Полууправляемый» подход, который OpenAI использовала со своим исходным GPT, включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и управляемая дискриминационная «точная настройка». этап, на котором эти параметры были адаптированы к целевой задаче<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFRadfordNarasimhanSalimansSutskever2018">Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). [https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] <span class="cs1-format">(PDF)</span>. [[OpenAI]]. p. 12. [https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 26 January 2021<span class="reference-accessdate">. Retrieved <span class="nowrap">23 January</span> 2021</span>.</cite></ref>. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | == | + | == Базовые модели GPT == |
− | |||
{| class="wikitable" | {| class="wikitable" | ||
− | |+ | + | |+Версии OpenAI GPT |
− | ! | + | ! Модель |
− | + | ! Архитектура | |
− | !Архитектура | + | ! Количество параметров |
− | !Количество параметров | + | ! Тренировочные данные |
− | !Тренировочные данные | + | ! Дата выпуска |
− | !Дата выпуска | ||
− | |||
|- | |- | ||
− | | | + | | Оригинальный GPT (GPT-1) |
− | | | + | | 12-уровневый декодер Transformer с 12 головками (без кодировщика), за которым следует linear-softmax. |
− | | | + | | 117 миллионов |
− | | | + | | BookCorpus : <ref>{{Cite conference|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|arxiv=1506.06724|url-status=live}}</ref> 4,5 ГБ текста из 7000 неопубликованных книг разных жанров. |
− | | | + | | {{Dts|2018|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-unsupervised|title=Improving language understanding with unsupervised learning|website=openai.com|archive-url=https://web.archive.org/web/20230318210736/https://openai.com/research/language-unsupervised|archive-date=2023-03-18|access-date=2023-03-18|url-status=live}}</ref> |
− | | | ||
− | | | ||
|- | |- | ||
− | | | + | | ГПТ-2 |
− | | | + | | GPT-1, но с измененной нормализацией |
− | | | + | | 1,5 миллиарда |
− | | | + | | WebText: 40 ГБ текста, 8 миллионов документов с 45 миллионов веб-страниц, за которые проголосовали на Reddit. |
− | | | + | | {{Dts|2019|February|14}} |
− | | | ||
− | | | ||
|- | |- | ||
− | |[[ | + | | [[GPT-3|ГПТ-3]] |
− | | | + | | GPT-2, но с модификацией, позволяющей увеличить масштаб |
− | + | | 175 миллиардов | |
− | | | + | | 570 ГБ открытого текста, 0,4 триллиона токенов. В основном CommonCrawl, WebText, английская Википедия и два корпуса книг (Книги1 и Книги2). |
− | + | | {{Dts|2020|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref> (затем 15 марта 2022 г., для пересмотра, в конечном итоге получившего название [[GPT-3|GPT-3.5]] ) | |
− | |||
− | |||
|- | |- | ||
+ | | [[GPT-4|ГПТ-4]] | ||
+ | | Также обучен как предсказанию текста, так и RLHF; принимает как текст, так и изображения в качестве входных данных. Дальнейшие подробности не разглашаются. <ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFOpenAI2023">OpenAI (2023). [https://cdn.openai.com/papers/gpt-4.pdf "GPT-4 Technical Report"] <span class="cs1-format">(PDF)</span>. [https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 2023-03-14<span class="reference-accessdate">. Retrieved <span class="nowrap">2023-03-16</span></span>.</cite></ref> | ||
+ | | (Недоступен) | ||
+ | | (Недоступен) | ||
+ | | {{Dts|2023|March|14}} | ||
|} | |} | ||
− | == | + | == Связанные модели и продукты == |
− | + | В январе 2022 года OpenAI представила InstructGPT, серию моделей, которые были [[Большая языковая модель|точно настроены для выполнения инструкций]] с использованием комбинации обучения [[Обучение с учителем|с учителем]] и [[Обучение с подкреплением на основе отзывов людей|обучения с подкреплением на основе отзывов людей]] (RLHF) на базовых языковых моделях GPT-3. | |
− | + | В ноябре 2022 года OpenAI запустила [[ChatGPT]], интерфейс онлайн-чата, основанный на языковой модели с настройкой инструкций, обученной аналогично InstructGPT. | |
− | |||
− | |||
− | + | == Примечания == | |
− | [[Категория:Программное обеспечение | + | {{Примечания|refs=<ref name=instructgpt-blog>{{cite web |title=Aligning language models to follow instructions |url=https://openai.com/research/instruction-following |website=openai.com |access-date=23 March 2023 |archive-date=23 March 2023 |archive-url=https://web.archive.org/web/20230323110040/https://openai.com/research/instruction-following |url-status=live }}</ref> |
− | + | <ref name=instructgpt-paper>{{cite journal |last1=Ouyang |first1=Long |last2=Wu |first2=Jeff |last3=Jiang |first3=Xu |last4=Almeida |first4=Diogo |last5=Wainwright |first5=Carroll L. |last6=Mishkin |first6=Pamela |last7=Zhang |first7=Chong |last8=Agarwal |first8=Sandhini |last9=Slama |first9=Katarina |last10=Ray |first10=Alex |last11=Schulman |first11=John |last12=Hilton |first12=Jacob |last13=Kelton |first13=Fraser |last14=Miller |first14=Luke |last15=Simens |first15=Maddie |last16=Askell |first16=Amanda |last17=Welinder |first17=Peter |last18=Christiano |first18=Paul |last19=Leike |first19=Jan |last20=Lowe |first20=Ryan |title=Training language models to follow instructions with human feedback |date=4 March 2022 |arxiv=2203.02155 |display-authors=3 }}</ref> | |
+ | <ref name=chatgpt-blog>{{Cite web |title=Introducing ChatGPT |url=https://openai.com/blog/chatgpt |access-date=2023-03-16 |website=openai.com |language=en-US |archive-date=2023-03-16 |archive-url=https://web.archive.org/web/20230316001700/https://openai.com/blog/chatgpt/ |url-status=live }}</ref>}} | ||
+ | [[Категория:Программное обеспечение с лицензией MIT]] | ||
[[Категория:Большие языковые модели]] | [[Категория:Большие языковые модели]] | ||
− | [[Категория: | + | [[Категория:Страницы с непроверенными переводами]] |
− |
Версия от 21:24, 6 апреля 2023
Generative pre-trained transformer (GPT) — это семейство больших языковых моделей (LLM), представленных американской организацией искусственного интеллекта OpenAI в 2018 году. Как и большинство LLM, модели GPT представляют собой искусственные нейронные сети, основанные на архитектуре трансформера, предварительно обученные без учителя на больших наборах данных неразмеченного текста и способные генерировать новый человекоподобный текст.
В период с 2018 по 2023 год OpenAI выпустила четыре основные пронумерованные модели GPT, причем каждая новая версия была значительно более функциональной, чем предыдущая, благодаря увеличению размера (измеряемому количеством обучаемых параметров) и обучению. Модели GPT-3, выпущенные в 2020 году, имеют 175 миллиардов параметров и были обучены на 400 миллиардах токенов текста. OpenAI отказалась публиковать данные о размере или обучении своей последней модели GPT-4, сославшись на «конкурентную среду и последствия для безопасности крупномасштабных моделей»[1]. OpenAI использует эти базовые модели GPT-n в качестве основы для различных других продуктов и технологий, включая модели, точно настроенные для выполнения инструкций, которые, в свою очередь, обеспечивают работу службы чат-ботов ChatGPT.
Термин «GPT» также используется в названиях некоторых генеративных LLM, не связанных с OpenAI, таких как серия моделей, вдохновленных GPT-3, созданных EleutherAI, [2] и совсем недавняя серия из семи моделей, созданных Cerebras[3]. Крупные компании в других отраслях (например, продажах, финансах) также используют термин «GPT» в названиях своих услуг, включающих или использующих технологию GPT[4][5].
История
11 июня 2018 года OpenAI опубликовала документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором был представлен первый генеративный предварительно обученный преобразователь (GPT)[6]. До этого самые эффективные нейронные модели НЛП в основном использовали обучение с учителем на больших объемах размеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование в наборах данных, которые не были хорошо аннотированы, а также делала обучение очень больших языковых моделей непомерно дорогим и трудоёмким[6].
«Полууправляемый» подход, который OpenAI использовала со своим исходным GPT, включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и управляемая дискриминационная «точная настройка». этап, на котором эти параметры были адаптированы к целевой задаче[6].
Базовые модели GPT
Модель | Архитектура | Количество параметров | Тренировочные данные | Дата выпуска |
---|---|---|---|---|
Оригинальный GPT (GPT-1) | 12-уровневый декодер Transformer с 12 головками (без кодировщика), за которым следует linear-softmax. | 117 миллионов | BookCorpus : [7] 4,5 ГБ текста из 7000 неопубликованных книг разных жанров. | Шаблон:Dts [8] |
ГПТ-2 | GPT-1, но с измененной нормализацией | 1,5 миллиарда | WebText: 40 ГБ текста, 8 миллионов документов с 45 миллионов веб-страниц, за которые проголосовали на Reddit. | Шаблон:Dts |
ГПТ-3 | GPT-2, но с модификацией, позволяющей увеличить масштаб | 175 миллиардов | 570 ГБ открытого текста, 0,4 триллиона токенов. В основном CommonCrawl, WebText, английская Википедия и два корпуса книг (Книги1 и Книги2). | Шаблон:Dts [9] (затем 15 марта 2022 г., для пересмотра, в конечном итоге получившего название GPT-3.5 ) |
ГПТ-4 | Также обучен как предсказанию текста, так и RLHF; принимает как текст, так и изображения в качестве входных данных. Дальнейшие подробности не разглашаются. [1] | (Недоступен) | (Недоступен) | Шаблон:Dts |
Связанные модели и продукты
В январе 2022 года OpenAI представила InstructGPT, серию моделей, которые были точно настроены для выполнения инструкций с использованием комбинации обучения с учителем и обучения с подкреплением на основе отзывов людей (RLHF) на базовых языковых моделях GPT-3.
В ноябре 2022 года OpenAI запустила ChatGPT, интерфейс онлайн-чата, основанный на языковой модели с настройкой инструкций, обученной аналогично InstructGPT.
Примечания
- ↑ 1,0 1,1 OpenAI. GPT-4 Technical Report (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года. Ошибка цитирования Неверный тег
<ref>
: название «gpt4-report» определено несколько раз для различного содержимого - ↑ EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J .
- ↑ Шаблон:Cite press release
- ↑ https://www.fastcompany.com/90862354/salesforces-einsteingpt-may-be-the-most-meaningful-application-of-ai-chatbots-yet
- ↑ https://www.forbes.com/sites/jamielsheikh/2023/04/05/the-chatgpt-of-finance-is-here-bloomberg-is-combining-ai-and-fintech/?sh=43b4385e3081
- ↑ 6,0 6,1 6,2 Salimans, Tim; Narasimhan, Karthik; Radford, Alec; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года. Ошибка цитирования Неверный тег
<ref>
: название «gpt1paper» определено несколько раз для различного содержимого - ↑ . arXiv:1506.06724 https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html.
{{cite conference}}
:|title=
пропущен или пуст (справка)Проект:Обслуживание CS1 (url-status) (ссылка) - ↑ Improving language understanding with unsupervised learning (амер. англ.). openai.com. Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
- ↑ Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.
Ошибка цитирования Тег <ref>
с именем «instructgpt-blog», определённый в <references>
, не используется в предшествующем тексте.
Ошибка цитирования Тег <ref>
с именем «instructgpt-paper», определённый в <references>
, не используется в предшествующем тексте.
<ref>
с именем «chatgpt-blog», определённый в <references>
, не используется в предшествующем тексте.