Строка 1: |
Строка 1: |
− | {{стиль статьи|дата=2013-02-03}}
| |
| '''N-Грамма''' — последовательность, состоящая из n элементов, которые могут быть звуками, слогами, словами или буквами, в зависимости от контекста. Чаще всего N-грамма - это последовательность слов, устойчивые сочетания которых называются словосочетаниями. | | '''N-Грамма''' — последовательность, состоящая из n элементов, которые могут быть звуками, слогами, словами или буквами, в зависимости от контекста. Чаще всего N-грамма - это последовательность слов, устойчивые сочетания которых называются словосочетаниями. |
| | | |
Строка 44: |
Строка 43: |
| Исследовательские центры [[Google (компания)|Google]] использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как [[Статистический машинный перевод|статистический перевод]] с одного языка на другой, [[распознавание речи]], исправление орфографических ошибок, [[извлечение информации]] и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов. | | Исследовательские центры [[Google (компания)|Google]] использовали N-граммные модели для широкого круга исследований и разработок. К ним относятся такие проекты, как [[Статистический машинный перевод|статистический перевод]] с одного языка на другой, [[распознавание речи]], исправление орфографических ошибок, [[извлечение информации]] и многое другое. Для целей этих проектов были использованы текстовые корпусы, содержащие несколько триллионов слов. |
| | | |
− | Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. [http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html Official Google Research Blog: All Our N-gram are Belong to You] {{Wayback|url=http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html |date=20061017225954 }}. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Созданная база N-грамм продаётся в виде 5 DVD.</ref>. | + | Google решила создать свой учебный корпус. Проект называется Google teracorpus и он содержит 1 024 908 267 229 слов, собранных с общедоступных веб-сайтов<ref>FRANZ, Alex, BRANTS, Thorsten. [https://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html Official Google Research Blog: All Our N-gram are Belong to You] {{Wayback|url=http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html |date=20061017225954 }}. Thursday, August 03, 2006 at 8/03/2006 11:26:00 AM. Созданная база N-грамм продаётся в виде 5 DVD.</ref>. |
| | | |
| == Методы для извлечения N-грамм == | | == Методы для извлечения N-грамм == |