Изменения
Перейти к навигации
Перейти к поиску
мСтрока 4:
Строка 4:
− +
Строка 90:
Строка 90:
− +
источники
== Языковые модели GPT от OpenAI ==
== Языковые модели GPT от OpenAI ==
{{Further|OpenAI}}
{{Further|OpenAI}}
11 июня 2018 года компания OpenAI опубликовала статью под названием "Improving Language Understanding by Generative Pre-Training", в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали [[обучение с учителем]] на больших объемах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
11 июня 2018 года компания OpenAI опубликовала статью под названием "Improving Language Understanding by Generative Pre-Training", в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали [[обучение с учителем]] на больших объемах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="gpt1paper3" /><ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=22 June 2017|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=31 March 2020|access-date=23 January 2021|quote=|url-status=live}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov2">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=22 June 2017|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=31 March 2020|access-date=23 January 2021|quote=|url-status=live}}</ref>. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
# несобственное генеративное "предварительное" обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
# несобственное генеративное "предварительное" обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
|-
|-
|BioGPT
|BioGPT
|[[Биомедицина|Биомедицинский]] контент
|[[Биомедицина|Биомедицинский]] контент<ref name="pmid36156661">{{cite journal|author=Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H|display-authors=etal|date=24 September 2022|title=BioGPT: generative pre-trained transformer for biomedical text generation and mining.|url=https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org%2Fcite&retmode=ref&cmd=prlinks&id=36156661|journal=Brief Bioinform|volume=23|issue=6|pages=|doi=10.1093/bib/bbac409|pmc=|pmid=36156661|access-date=7 February 2023|archive-date=1 April 2023|archive-url=https://web.archive.org/web/20230401192557/https://academic.oup.com/bib/article-abstract/23/6/bbac409/6713511?redirectedFrom=fulltext|url-status=live}}</ref><ref>{{cite web|url=https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|title=BioGPT is a Microsoft language model trained for biomedical tasks|author=Matthias Bastian|website=The Decoder|date=2023-01-29|archive-url=https://web.archive.org/web/20230207174627/https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|archive-date=2023-02-07|access-date=2023-02-07|url-status=live}}</ref>
|Как GPT-2 Medium (24 слоев, 16 головок)
|Как GPT-2 Medium (24 слоев, 16 головок)
|347 миллионов
|347 миллионов