Llama.cpp: различия между версиями
In.wiki (комментарии | вклад) |
In.wiki (комментарии | вклад) Метка: визуальный редактор отключён |
||
Строка 17: | Строка 17: | ||
Она разрабатывается совместно с проектом [[GGML (библиотека машинного обучения)|GGML]], [[Тензорная алгебра|тензорной библиотекой общего назначения]]<ref name="ggml">{{cite web |last1=Gerganov |first1=Georgi |title=ggerganov/ggml |website=[[GitHub]] |url=https://github.com/ggerganov/ggml |date=17 May 2024}}</ref>. | Она разрабатывается совместно с проектом [[GGML (библиотека машинного обучения)|GGML]], [[Тензорная алгебра|тензорной библиотекой общего назначения]]<ref name="ggml">{{cite web |last1=Gerganov |first1=Georgi |title=ggerganov/ggml |website=[[GitHub]] |url=https://github.com/ggerganov/ggml |date=17 May 2024}}</ref>. | ||
− | + | Вместе с библиотекой поставляются утилиты командной строки<ref name="theregister 14 Jul 2024">{{cite web |last1=Mann |first1=Tobias |title=Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it |url=https://www.theregister.com/2024/07/14/quantization_llm_feature/ |website=theregister |date=14 Jul 2024}}</ref>, а также сервер с простым веб-интерфейсом<ref name="theregister 15 December 2024">{{cite web |last1=Mann |first1=Tobias |title=Intro to speculative decoding: Cheat codes for faster LLMs |url=https://www.theregister.com/2024/12/15/speculative_decoding/ |website=theregister |language=en |date=15 December 2024}}</ref><ref name="lwn">{{cite web |last1=Alden |first1=Daroc |title=Portable LLMs with llamafile [LWN.net] |url=https://lwn.net/Articles/971195/ |website=lwn.net |access-date=30 July 2024}}</ref>. | |
== Предыстория == | == Предыстория == |
Версия от 03:07, 29 июля 2025
llama.cpp Библиотека для инференса LLM.
|
- Язык программирования:
- C++, C и C++, C
- Разработчик:
- Георгий Герганов и сообщество
- Дата появления:
- март 10, 2023[1]
со строчной буквы
llama.cpp — это библиотека с открытым исходным кодом, которая выполняет инференс с использованием различных больших языковых моделей, таких как Llama[3].
Она разрабатывается совместно с проектом GGML, тензорной библиотекой общего назначения[4].
Вместе с библиотекой поставляются утилиты командной строки[5], а также сервер с простым веб-интерфейсом[6][7].
Предыстория
В конце сентября 2022 года Георгий Герганов начал работу над библиотекой GGML, библиотекой на языке C, реализующей тензорную алгебру. Герганов разрабатывал библиотеку с учётом строгого управления памятью и многопоточности. Создание GGML было вдохновлено работой Фабриса Беллара над LibNC[8]. До llama.cpp Герганов работал над аналогичной библиотекой whisper.cpp, которая реализовала Whisper — модель преобразования речи в текст от OpenAI[9].
Примечания
- ↑ Initial release · ggerganov/llama.cpp@26c0846 (англ.). GitHub. Дата обращения: 15 мая 2024.
- ↑ llama.cpp/LICENSE at master · ggerganov/llama.cpp (англ.). GitHub.
- ↑ Connatser, Matthew. How this open source LLM chatbot runner hit the gas on x86, Arm CPUs . theregister.com. Дата обращения: 15 апреля 2024.
- ↑ Gerganov, Georgi. ggerganov/ggml . GitHub (17 мая 2024).
- ↑ Mann, Tobias. Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it . theregister (14 июля 2024).
- ↑ Mann, Tobias. Intro to speculative decoding: Cheat codes for faster LLMs (англ.). theregister (15 декабря 2024).
- ↑ Alden, Daroc. Portable LLMs with llamafile [LWN.net] . lwn.net. Дата обращения: 30 июля 2024.
- ↑ Bringing Whisper and LLaMA to the masses with Georgi Gerganov (Changelog Interviews #532) (англ.). Changelog (22 марта 2023). Дата обращения: 28 июля 2024.
- ↑ Connatser, Matthew. Llamafile LLM driver project boosts performance on CPU cores (англ.). www.theregister.com. Дата обращения: 10 мая 2024.