Строка 3: |
Строка 3: |
| Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и [[Вес нейронной связи|веса]], используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель [[BERTbase]] компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы [[Токен (обучение нейронных сетей)|токенов]] — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью. | | Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и [[Вес нейронной связи|веса]], используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель [[BERTbase]] компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы [[Токен (обучение нейронных сетей)|токенов]] — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью. |
| | | |
− | [[Generative pre-trained transformer|Генеративные предобученные трансформеры]] (GPT и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных. | + | [[Generative pre-trained transformer|Генеративные предобученные трансформеры]] ([[GPT]] и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных. |
| | | |
| В текстовом формате БЯМ применяются для анализа и извлечения информации, [[Автоматическое реферирование|суммаризации]], ответов на вопросы, логических рассуждений, анализа тональности, создания контента и программного кода, а также [[Машинный перевод|машинного перевода]]. Мультимодальные возможности этих моделей охватывают работу с речью, аудио, изображениями и видео, включая создание подписей к изображениям, распознавание объектов, генерацию визуального контента, транскрипцию речи и анализ видеоматериалов. | | В текстовом формате БЯМ применяются для анализа и извлечения информации, [[Автоматическое реферирование|суммаризации]], ответов на вопросы, логических рассуждений, анализа тональности, создания контента и программного кода, а также [[Машинный перевод|машинного перевода]]. Мультимодальные возможности этих моделей охватывают работу с речью, аудио, изображениями и видео, включая создание подписей к изображениям, распознавание объектов, генерацию визуального контента, транскрипцию речи и анализ видеоматериалов. |
| | | |
| == История == | | == История == |
− | В истории развития языковых моделей до 2017 года наблюдалось несколько значимых достижений: в 1990-х годах IBM разработала модели выравнивания, которые стали пионерами в области статистического языкового моделирования; в 2001 году сглаженная n-грамм модель, обученная на 0,3 млрд слов, достигла наилучших показателей перплексии для своего времени<ref>{{Citation |last=Goodman |first=Joshua |title=A Bit of Progress in Language Modeling |date=2001-08-09 |arxiv=cs/0108005 }}</ref>; в 2000-х годах с распространением интернета исследователи начали создавать масштабные языковые датасеты («веб как корпус»<ref>{{Cite journal|last1=Kilgarriff|first1=Adam|last2=Grefenstette|first2=Gregory|date=September 2003|title=Introduction to the Special Issue on the Web as Corpus|url=https://direct.mit.edu/coli/article/29/3/333-347/1816|journal=Computational Linguistics|volume=29|issue=3|pages=333—347|doi=10.1162/089120103322711569|issn=0891-2017}}</ref>) для обучения статистических языковых моделей; к 2009 году статистические языковые модели доминировали над символьными в большинстве задач обработки языка благодаря их способности эффективно использовать большие объёмы данных<ref>{{Cite journal|last1=Banko|first1=Michele|last2=Brill|first2=Eric|date=2001|title=Scaling to very very large corpora for natural language disambiguation|url=http://dx.doi.org/10.3115/1073012.1073017|journal=Proceedings of the 39th Annual Meeting on Association for Computational Linguistics — ACL '01|location=Morristown, NJ, USA|publisher=Association for Computational Linguistics|pages=26—33|doi=10.3115/1073012.1073017}}</ref><ref>{{Cite journal|last1=Resnik|first1=Philip|last2=Smith|first2=Noah A.|date=September 2003|title=The Web as a Parallel Corpus|url=https://direct.mit.edu/coli/article/29/3/349-380/1809|url-status=live|journal=Computational Linguistics|volume=29|issue=3|pages=349—380|doi=10.1162/089120103322711578|issn=0891-2017|archive-url=https://web.archive.org/web/20240607172811/https://direct.mit.edu/coli/article/29/3/349-380/1809|archive-date=2024-06-07|access-date=2024-06-07|doi-access=free}}</ref><ref>{{Cite journal|last1=Halevy|first1=Alon|last2=Norvig|first2=Peter|last3=Pereira|first3=Fernando|date=March 2009|title=The Unreasonable Effectiveness of Data|url=https://ieeexplore.ieee.org/document/4804817|journal=IEEE Intelligent Systems|volume=24|issue=2|pages=8—12|doi=10.1109/MIS.2009.36|issn=1541-1672}}</ref>. | + | В истории развития языковых моделей до 2017 года наблюдалось несколько значимых достижений: в 1990-х годах IBM разработала [[модели выравнивания]], которые стали пионерами в области [[Статистическое языковое моделирование|статистического языкового моделирования]]; в 2001 году сглаженная [[n-грамм]] модель, обученная на 0,3 млрд слов, достигла наилучших показателей [[Перплексия|перплексии]] для своего времени<ref>{{Citation |last=Goodman |first=Joshua |title=A Bit of Progress in Language Modeling |date=2001-08-09 |arxiv=cs/0108005 }}</ref>; в 2000-х годах с распространением интернета исследователи начали создавать масштабные [[Языковой датасет|языковые датасеты]] («веб как [[Корпус языка|корпус]]»<ref>{{Cite journal|last1=Kilgarriff|first1=Adam|last2=Grefenstette|first2=Gregory|date=September 2003|title=Introduction to the Special Issue on the Web as Corpus|url=https://direct.mit.edu/coli/article/29/3/333-347/1816|journal=Computational Linguistics|volume=29|issue=3|pages=333—347|doi=10.1162/089120103322711569|issn=0891-2017}}</ref>) для обучения [[Статистическая языковая модель|статистических языковых моделей]]; к 2009 году статистические языковые модели доминировали над символьными в большинстве задач обработки языка благодаря их способности эффективно использовать большие объёмы данных<ref>{{Cite journal|last1=Banko|first1=Michele|last2=Brill|first2=Eric|date=2001|title=Scaling to very very large corpora for natural language disambiguation|url=http://dx.doi.org/10.3115/1073012.1073017|journal=Proceedings of the 39th Annual Meeting on Association for Computational Linguistics — ACL '01|location=Morristown, NJ, USA|publisher=Association for Computational Linguistics|pages=26—33|doi=10.3115/1073012.1073017}}</ref><ref>{{Cite journal|last1=Resnik|first1=Philip|last2=Smith|first2=Noah A.|date=September 2003|title=The Web as a Parallel Corpus|url=https://direct.mit.edu/coli/article/29/3/349-380/1809|url-status=live|journal=Computational Linguistics|volume=29|issue=3|pages=349—380|doi=10.1162/089120103322711578|issn=0891-2017|archive-url=https://web.archive.org/web/20240607172811/https://direct.mit.edu/coli/article/29/3/349-380/1809|archive-date=2024-06-07|access-date=2024-06-07|doi-access=free}}</ref><ref>{{Cite journal|last1=Halevy|first1=Alon|last2=Norvig|first2=Peter|last3=Pereira|first3=Fernando|date=March 2009|title=The Unreasonable Effectiveness of Data|url=https://ieeexplore.ieee.org/document/4804817|journal=IEEE Intelligent Systems|volume=24|issue=2|pages=8—12|doi=10.1109/MIS.2009.36|issn=1541-1672}}</ref>. |
| | | |
− | В 2012 году нейронные сети стали доминировать в обработке изображений<ref>Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.</ref>, после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием sequence-to-sequence (seq2seq) глубоких LSTM-сетей, поскольку трансформеры на тот момент ещё не существовали. | + | В 2012 году нейронные сети стали доминировать в обработке изображений<ref>Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.</ref>, после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием [[sequence-to-sequence]] ([[seq2seq]]) глубоких [[LSTM-сеть|LSTM-сетей]], поскольку [[Трансформер|трансформеры]] на тот момент ещё не существовали. |
| | | |
− | В 2017 году на конференции NeurIPS исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на механизм внимания, разработанный Бахданау и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT (encoder-only модель, в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. | + | В 2017 году на [[Конференция NeurIPS|конференции NeurIPS]] исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на [[механизм внимания]], разработанный [[Бахданау]] и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT ([[encoder-only модель]], в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. |
| | | |
| История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. | | История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. |