Изменения

Llama.cpp (править)

Версия от 05:52, 30 июля 2025

1443 байта добавлено , 1 месяц назад

Строка 32: Строка 32:

В марте 2024 года [[Танни, Джастин Александра Робертс|Джастин Танни]] представила новые оптимизированные ядра умножения матриц для процессоров [[x86]] и [[ARM]], повысив производительность вычисления промптов для [[FP16]] и [[Q8_0]]<ref name="llamafileregister">{{cite web |last1=Connatser |first1=Matthew |title=Llamafile LLM driver project boosts performance on CPU cores |url=https://www.theregister.com/2024/04/03/llamafile_performance_gains/ |website=www.theregister.com |access-date=10 May 2024 |language=en}}</ref>. Эти улучшения были внесены в основную ветку разработки llama.cpp<ref name="llamafileregister" />. Танни также создала инструмент под названием [[llamafile]], который объединяет модели и llama.cpp в один файл, работающий на нескольких операционных системах с помощью библиотеки [[Cosmopolitan Libc]], также созданной Танни, которая позволяет C/C++ быть более переносимым между операционными системами<ref name="llamafileregister" />.

+

== Архитектура ==

+

llama.cpp поддерживает несколько целевых аппаратных платформ, включая x86, ARM, [[CUDA]], [[Metal]], [[Vulkan]] (версии 1.2 или выше) и [[SYCL]].[17][18][19][20] Эта поддержка реализована в тензорной библиотеке [[GGML (библиотека машинного обучения)|GGML]], которая используется кодом llama.cpp, специфичным для модели фронтенда.[21] llama.cpp поддерживает предварительное квантование модели, а не квантование «на лету».[22] llama.cpp использует несколько [[Расширения набора команд x86|расширений набора команд x86]] для ускорения выполнения матричных операций: [[AVX]], [[AVX2]] и [[AVX-512]] для [[x86-64]], а также [[Neon]] на ARM. [[Apple Silicon]] является важной целевой платформой для проекта.[15][23] llama.cpp поддерживает форматирование выходных данных на основе грамматики в формате JSON[11] и [[Спекулятивное декодирование модели|спекулятивное декодирование]].[7]

== Примечания ==

[[Категория:Программное обеспечение для машинного обучения]]

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок

Изменения

Llama.cpp (править)

Версия от 05:52, 30 июля 2025

Навигация

Поиск