Llama.cpp

llama.cpp

Библиотека для инференса LLM.

Язык программирования:: C++, C и C++, C

Разработчик:: Георгий Герганов и сообщество

Дата появления:: март 10, 2023; 2 years ago (2023-03-10)^[1]

Лицензия:: MIT License ^[2]

Шаблон: п·о·и

Форма: о·с

со строчной буквы

llama.cpp — это библиотека с открытым исходным кодом, которая выполняет инференс с использованием различных больших языковых моделей, таких как Llama^[3].

Она разрабатывается совместно с проектом GGML, тензорной библиотекой общего назначения^[4].

Вместе с библиотекой поставляются утилиты командной строки^[5], а также сервер с простым веб-интерфейсом^[6]^[7].

Предыстория

В конце сентября 2022 года Георгий Герганов начал работу над библиотекой GGML, библиотекой на языке C, реализующей тензорную алгебру. Герганов разрабатывал библиотеку с учётом строгого управления памятью и многопоточности. Создание GGML было вдохновлено работой Фабриса Беллара над LibNC^[8]. До llama.cpp Герганов работал над аналогичной библиотекой whisper.cpp, которая реализовала Whisper — модель преобразования речи в текст от OpenAI^[9].

Разработка

Разработка llama.cpp началась в марте 2023 года Георгием Гергановым как реализация кода инференса Llama на чистом C/C++ без зависимостей.

Это резко повысило производительность на компьютерах без графического процессора или другого выделенного оборудования, что и было целью проекта^[3].[10][11]

llama.cpp завоевала популярность у пользователей, не имеющих специализированного оборудования, поскольку могла работать только на CPU в том числе на устройствах Android.[10][12][13] Изначально проект разрабатывался для CPU, но позже была добавлена поддержка инференса на GPU.[14]

По состоянию на ноябрь 2024 года проект имел более 67 000 звёзд на GitHub.[15]

В марте 2024 года Джастин Танни представила новые оптимизированные ядра умножения матриц для процессоров x86 и ARM, повысив производительность вычисления промптов для FP16 и Q8_0[16]. Эти улучшения были внесены в основную ветку разработки llama.cpp.[16] Танни также создала инструмент под названием llamafile, который объединяет модели и llama.cpp в один файл, работающий на нескольких операционных системах с помощью библиотеки Cosmopolitan Libc, также созданной Танни, которая позволяет C/C++ быть более переносимым между операционными системами.[16]

Примечания

↑ Initial release · ggerganov/llama.cpp@26c0846 (англ.). GitHub. Дата обращения: 15 мая 2024.
↑ llama.cpp/LICENSE at master · ggerganov/llama.cpp (англ.). GitHub.
↑ ^3,0 ^3,1 Connatser, Matthew. How this open source LLM chatbot runner hit the gas on x86, Arm CPUs (неопр.). theregister.com. Дата обращения: 15 апреля 2024.
↑ Gerganov, Georgi. ggerganov/ggml (неопр.). GitHub (17 мая 2024).
↑ Mann, Tobias. Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it (неопр.). theregister (14 июля 2024).
↑ Mann, Tobias. Intro to speculative decoding: Cheat codes for faster LLMs (англ.). theregister (15 декабря 2024).
↑ Alden, Daroc. Portable LLMs with llamafile [LWN.net] (неопр.). lwn.net. Дата обращения: 30 июля 2024.
↑ Bringing Whisper and LLaMA to the masses with Georgi Gerganov (Changelog Interviews #532) (англ.). Changelog (22 марта 2023). Дата обращения: 28 июля 2024.
↑ Connatser, Matthew. Llamafile LLM driver project boosts performance on CPU cores (англ.). www.theregister.com. Дата обращения: 10 мая 2024.

[githubrelease-1] Initial release · ggerganov/llama.cpp@26c0846 (англ.). GitHub. Дата обращения: 15 мая 2024.

[license-2] .cpp/LICENSE at master · ggerganov/llama.cpp (англ.). GitHub.

[register-llamafile-3] 3,0 ^3,1 Connatser, Matthew. How this open source LLM chatbot runner hit the gas on x86, Arm CPUs (неопр.). theregister.com. Дата обращения: 15 апреля 2024.

[ggml-4] Gerganov, Georgi. ggerganov/ggml (неопр.). GitHub (17 мая 2024).

[theregister_14_Jul_2024-5] Mann, Tobias. Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it (неопр.). theregister (14 июля 2024).

[theregister_15_December_2024-6] Mann, Tobias. Intro to speculative decoding: Cheat codes for faster LLMs (англ.). theregister (15 декабря 2024).

[lwn-7] Alden, Daroc. Portable LLMs with llamafile [LWN.net] (неопр.). lwn.net. Дата обращения: 30 июля 2024.

[changelog-podcast-mar-2023-8] Bringing Whisper and LLaMA to the masses with Georgi Gerganov (Changelog Interviews #532) (англ.). Changelog (22 марта 2023). Дата обращения: 28 июля 2024.

[llamafileregister-9] Connatser, Matthew. Llamafile LLM driver project boosts performance on CPU cores (англ.). www.theregister.com. Дата обращения: 10 мая 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Llama.cpp

Содержание

со строчной буквы

Предыстория

Разработка

Примечания

Навигация

Поиск