Generative pre-trained transformer: различия между версиями
w>Dmitry Rozhkov (Создано переводом страницы «Generative pre-trained transformer») |
w>Oleg4280 (отмена правки 129680839 участника Dmitry Rozhkov (обс.) Обсуждение участника:Dmitry Rozhkov) |
||
Строка 1: | Строка 1: | ||
+ | [[Файл:Full_GPT_architecture.png|справа|мини|Оригинальная языковая модель GPT]] | ||
+ | '''Generative pre-trained transformer''' или '''GPT''' ({{lang-ru|[[Генеративный искусственный интеллект|Генеративный]] [[Глубокое обучение|предобученный]] [[Трансформер (модель машинного обучения)|трансформер]]}}) - это тип нейронных [[Языковая модель|языковых моделей]], впервые представленных компанией [[OpenAI]], которые обучаются на больших наборах текстовых данных, чтобы [[Генератор текста|генерировать текст]], схожий с человеческим. [[Глубокое обучение|Предобучение]] относится к начальному процессу обучения на корпусе, в результате которого [[Языковая модель|модель]] учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объемов данных. GPT являются "трансформерами", которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки [[Естественный язык|естественного языка]] ([[Обработка естественного языка|NLP]]), таких как [[Генератор текста|генерация текста]], [[машинный перевод]] и [[Классификация документов|классификация текста]]. | ||
− | + | == Языковые модели GPT от OpenAI == | |
− | + | {{Further|OpenAI}} | |
+ | 11 июня 2018 года компания OpenAI опубликовала статью под названием "Improving Language Understanding by Generative Pre-Training", в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали [[обучение с учителем]] на больших объемах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=22 June 2017|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=31 March 2020|access-date=23 January 2021|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа: | ||
− | + | # несобственное генеративное "предварительное" обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием | |
+ | # собственное {{Не переведено 3|Дискриминационная модель|дискриминативное (различительное)|en|Discriminative model}} "дообучающее" обучение, на котором эти параметры адаптируются к конкретной задаче. | ||
− | + | {| class="wikitable" | |
− | + | |+Версии GPT от [[OpenAI]] | |
− | + | ! | |
− | 11 июня 2018 | + | !Использование |
− | + | !Архитектура | |
− | + | !Количество параметров | |
+ | !Тренировочные данные | ||
+ | !Дата выпуска | ||
+ | |- | ||
+ | |[[GPT-1]] | ||
+ | |Общее | ||
+ | |12-уровневый декодер-[[Трансформер (модель машинного обучения)|трансформер]] с 12 головками (без кодировщика), за которым следует [[Линейный софтмакс (машинное обучение)|линейный софтмакс]]. | ||
+ | |117 миллионов | ||
+ | |{{Не переведено 3|BookCorpus|BookCorpus|en|BookCorpus}}: 4,5 ГБ текста из 7000 неизданных книг разных жанров.<ref>{{Cite conference|last1=Zhu|first1=Yukun|last2=Kiros|first2=Ryan|last3=Zemel|first3=Rich|last4=Salakhutdinov|first4=Ruslan|last5=Urtasun|first5=Raquel|last6=Torralba|first6=Antonio|last7=Fidler|first7=Sanja|date=2015|title=Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|conference=IEEE International Conference on Computer Vision (ICCV) 2015|pages=19–27|arxiv=1506.06724|access-date=2023-02-07|archive-date=2023-02-05|archive-url=https://web.archive.org/web/20230205222219/https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|url-status=live}}</ref> | ||
+ | |11 июня 2018<ref name="gpt1paper2">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref> | ||
+ | |- | ||
+ | |{{Не переведено 3|GPT-2|GPT-2|en|GPT-2}} | ||
+ | |Общее | ||
+ | |GPT-1, но с измененной {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}. | ||
+ | |1.5 миллиардов ({{рост}}1273000%) | ||
+ | |WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на [[Reddit]]. | ||
+ | |14 февраля 2019 | ||
+ | |- | ||
+ | |[[GPT-3]] | ||
+ | |Общее | ||
+ | |GPT-2, но с изменениями для возможности масштабирования в большем объеме. | ||
+ | |175 миллиардов ({{рост}}11566%) | ||
+ | |570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также {{Не переведено 3|BookCorpus|BookCorpus|en|BookCorpus}}. | ||
+ | |11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref> | ||
+ | |- | ||
+ | |[[InstructGPT]] (GPT-3.5) | ||
+ | |Разговор | ||
+ | |GPT-3, {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенный|en|Fine-tuning (machine learning)}} для выполнения инструкций с использованием [[Обучение с подкреплением на основе отзывов людей|обратной связи с человеком]]. | ||
+ | |175 миллиардов<ref>{{cite journal|last1=Ouyang|first1=Long|last2=Wu|first2=Jeff|last3=Jiang|first3=Xu|last4=Almeida|first4=Diogo|last5=Wainwright|first5=Carroll L.|last6=Mishkin|first6=Pamela|last7=Zhang|first7=Chong|last8=Agarwal|first8=Sandhini|last9=Slama|first9=Katarina|last10=Ray|first10=Alex|last11=Schulman|first11=John|last12=Hilton|first12=Jacob|last13=Kelton|first13=Fraser|last14=Miller|first14=Luke|last15=Simens|first15=Maddie|last16=Askell|first16=Amanda|last17=Welinder|first17=Peter|last18=Christiano|first18=Paul|last19=Leike|first19=Jan|last20=Lowe|first20=Ryan|title=Training language models to follow instructions with human feedback|date=4 March 2022|arxiv=2203.02155|display-authors=3}}</ref> | ||
+ | |{{dunno}} | ||
+ | |4 марта 2022 | ||
+ | |- | ||
+ | |[[ChatGPT]] | ||
+ | |Диалог | ||
+ | |Использует [[InstructGPT|GPT-3.5]] и {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенн|en|Fine-tuning (machine learning)}} (подход к {{Не переведено 3|Трансферное обучение|трансферному обучению|en|Transfer learning}}) как с [[Обучение с учителем|обучением с учителем]], так и с [[Обучение с подкреплением на основе отзывов людей|RLHF]] (Обучение с подкреплением на основе отзывов людей). | ||
+ | |{{dunno}} | ||
+ | |{{dunno}} | ||
+ | |30 ноября 2022 | ||
+ | |- | ||
+ | |[[GPT-4]] | ||
+ | |Общее | ||
+ | |Также обучен на основе предсказания текста и основан на [[Обучение с подкреплением|обучении с подкреплением.]] Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.<ref>{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|last=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16}}</ref> | ||
+ | |{{dunno}} | ||
+ | |{{dunno}} | ||
+ | |14 марта 2023 | ||
+ | |} | ||
− | == | + | == Другие (производные) модели GPT == |
+ | После того, как [[OpenAI]] выпустила свою модель GPT-3, [[EleutherAI]] выпустила ряд [[Большие языковые модели|больших языковых моделей]] (LLM) с [[Открытое программное обеспечение|открытым исходным кодом]], и ее модель [[GPT-J]] привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT. | ||
{| class="wikitable" | {| class="wikitable" | ||
− | |+ | + | |+Основные GPT от других разработчиков |
− | ! | + | ! |
− | ! Архитектура | + | !Использование |
− | ! Количество параметров | + | !Архитектура |
− | ! Тренировочные данные | + | !Количество параметров |
− | ! Дата выпуска | + | !Тренировочные данные |
+ | !Дата выпуска | ||
+ | !Разработчик | ||
|- | |- | ||
− | | | + | |[[GPT-J]] |
− | | | + | |Общее |
− | | | + | |Параллельный декодер |
− | | | + | |6 миллиардов |
− | | | + | |Набор данных объемом 825 ГБ с [[Открытое программное обеспечение|открытым исходным кодом]] (называемый «кучей») |
+ | |9 июня 2021 | ||
+ | |[[EleutherAI]] | ||
|- | |- | ||
− | | | + | |[[BLOOM (language model)|BLOOM]] |
− | | | + | |Общее |
− | | 1, | + | |[[Трансформер (модель машинного обучения)|Трансформер]] только для декодера |
− | + | |176 миллиардов | |
− | | | + | |Данные 46 [[Естественный язык|естественных языков]] и 13 [[Язык программирования|языков программирования]]; Всего 1,6 терабайт предварительно обработанного текста. |
+ | |6 июля 2022 | ||
+ | |[[Hugging Face]] | ||
|- | |- | ||
− | | [[ | + | |[[BioGPT]] |
− | | | + | |[[Биомедицина|Биомедицинский]] контент<ref name="pmid36156661">{{cite journal|author=Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H|display-authors=etal|date=24 September 2022|title=BioGPT: generative pre-trained transformer for biomedical text generation and mining.|url=https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org%2Fcite&retmode=ref&cmd=prlinks&id=36156661|journal=Brief Bioinform|volume=23|issue=6|pages=|doi=10.1093/bib/bbac409|pmc=|pmid=36156661|access-date=7 February 2023|archive-date=1 April 2023|archive-url=https://web.archive.org/web/20230401192557/https://academic.oup.com/bib/article-abstract/23/6/bbac409/6713511?redirectedFrom=fulltext}}</ref><ref>{{cite web|url=https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|title=BioGPT is a Microsoft language model trained for biomedical tasks|author=Matthias Bastian|website=The Decoder|date=2023-01-29|archive-url=https://web.archive.org/web/20230207174627/https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|archive-date=2023-02-07|access-date=2023-02-07}}</ref> |
− | | | + | |Как в [[GPT-2]] Medium (24 слоев, 16 головок) |
− | | | + | |347 миллионов |
− | | | + | |Непустые записи из [[PubMed]] (всего 1,5 миллиона). |
+ | |24 сентября 2022 | ||
+ | |[[Microsoft]] | ||
|- | |- | ||
− | |||
− | |||
− | |||
− | |||
− | |||
|} | |} | ||
− | == | + | == Ссылки == |
− | + | {{reflist}} | |
− | + | {{Обработка естественного языка}} | |
+ | {{Искусственный интеллект}} | ||
+ | {{Машинное обучение}} | ||
− | + | [[Категория:Виртуальные собеседники]] | |
− | + | [[Категория:Программное обеспечение по алфавиту]] | |
− | + | [[Категория:Машинное обучение]] | |
− | |||
− | [[Категория: | ||
[[Категория:Большие языковые модели]] | [[Категория:Большие языковые модели]] | ||
− | [[Категория: | + | [[Категория:Глубокое обучение]] |
+ | [[Категория:Обработка естественного языка]] |
Версия от 22:43, 6 апреля 2023
Generative pre-trained transformer или GPT (рус. Генеративный предобученный трансформер) - это тип нейронных языковых моделей, впервые представленных компанией OpenAI, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объемов данных. GPT являются "трансформерами", которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.
Языковые модели GPT от OpenAI
Шаблон:Further 11 июня 2018 года компания OpenAI опубликовала статью под названием "Improving Language Understanding by Generative Pre-Training", в которой был представлен Генеративный Предобученный Трансформер (GPT)[1]. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали обучение с учителем на больших объемах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках[2]. Предложенный OpenAI подход слабонадзорного ("полу-надзорного")[англ.] обучения на основе модели GPT включает два этапа:
- несобственное генеративное "предварительное" обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
- собственное дискриминативное (различительное)[англ.] "дообучающее" обучение, на котором эти параметры адаптируются к конкретной задаче.
Использование | Архитектура | Количество параметров | Тренировочные данные | Дата выпуска | |
---|---|---|---|---|---|
GPT-1 | Общее | 12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс. | 117 миллионов | BookCorpus[англ.]: 4,5 ГБ текста из 7000 неизданных книг разных жанров.[3] | 11 июня 2018[4] |
GPT-2[англ.] | Общее | GPT-1, но с измененной нормализацией[англ.]. | 1.5 миллиардов (▲1273000%) | WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на Reddit. | 14 февраля 2019 |
GPT-3 | Общее | GPT-2, но с изменениями для возможности масштабирования в большем объеме. | 175 миллиардов (▲11566%) | 570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также BookCorpus[англ.]. | 11 июня 2020[5] |
InstructGPT (GPT-3.5) | Разговор | GPT-3, тонко настроенный[англ.] для выполнения инструкций с использованием обратной связи с человеком. | 175 миллиардов[6] | Неизвестно | 4 марта 2022 |
ChatGPT | Диалог | Использует GPT-3.5 и тонко настроенн[англ.] (подход к трансферному обучению[англ.]) как с обучением с учителем, так и с RLHF (Обучение с подкреплением на основе отзывов людей). | Неизвестно | Неизвестно | 30 ноября 2022 |
GPT-4 | Общее | Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.[7] | Неизвестно | Неизвестно | 14 марта 2023 |
Другие (производные) модели GPT
После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и ее модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
Использование | Архитектура | Количество параметров | Тренировочные данные | Дата выпуска | Разработчик | |
---|---|---|---|---|---|---|
GPT-J | Общее | Параллельный декодер | 6 миллиардов | Набор данных объемом 825 ГБ с открытым исходным кодом (называемый «кучей») | 9 июня 2021 | EleutherAI |
BLOOM | Общее | Трансформер только для декодера | 176 миллиардов | Данные 46 естественных языков и 13 языков программирования; Всего 1,6 терабайт предварительно обработанного текста. | 6 июля 2022 | Hugging Face |
BioGPT | Биомедицинский контент[8][9] | Как в GPT-2 Medium (24 слоев, 16 головок) | 347 миллионов | Непустые записи из PubMed (всего 1,5 миллиона). | 24 сентября 2022 | Microsoft |
Ссылки
- ↑ Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya; Radford, Alec. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
- ↑ 2,0 2,1 Tsvetkov, Yulia. Opportunities and Challenges in Working with Low-Resource Languages . Carnegie Mellon University (22 июня 2017). Дата обращения: 23 января 2021. Архивировано 31 марта 2020 года.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Архивировано 5 февраля 2023. Дата обращения: 7 февраля 2023.
- ↑ Salimans, Tim; Narasimhan, Karthik; Radford, Alec; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training 12. OpenAI (11 июня 2018). Дата обращения: 23 января 2021. Архивировано 26 января 2021 года.
- ↑ Language models are few-shot learners (амер. англ.). openai.com. Дата обращения: 21 марта 2023. Архивировано 21 марта 2023 года.
- ↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (4 March 2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155.
{{cite journal}}
: Cite journal требует|journal=
(справка) - ↑ OpenAI. GPT-4 Technical Report (2023). Дата обращения: 16 марта 2023. Архивировано 14 марта 2023 года.
- ↑ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. (24 September 2022). "BioGPT: generative pre-trained transformer for biomedical text generation and mining". Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661. Архивировано 1 апреля 2023. Дата обращения: 7 февраля 2023.
{{cite journal}}
: Проект:Обслуживание CS1 (множественные имена: authors list) (ссылка) - ↑ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks . The Decoder (29 января 2023). Дата обращения: 7 февраля 2023. Архивировано 7 февраля 2023 года.
Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value). Ошибка Lua в Модуль:Navbox на строке 353: attempt to index local 'listText' (a nil value).
- Проект:Cite web (не указан язык)
- Проект:Ошибки CS1 (пропущен periodical)
- Проект:Обслуживание CS1 (множественные имена: authors list)
- Страницы с ошибками скриптов
- Виртуальные собеседники
- Программное обеспечение по алфавиту
- Машинное обучение
- Большие языковые модели
- Глубокое обучение
- Обработка естественного языка