Векторная база данных: различия между версиями

Материал из in.wiki
Перейти к навигации Перейти к поиску
Строка 2: Строка 2:
 
'''Векторная база данных''', хранилище векторов или поисковая система векторов — это база данных, использующая [[Векторная модель|векторную модель]] для хранения векторов (списков чисел фиксированной длины) вместе с другими элементами данных.  
 
'''Векторная база данных''', хранилище векторов или поисковая система векторов — это база данных, использующая [[Векторная модель|векторную модель]] для хранения векторов (списков чисел фиксированной длины) вместе с другими элементами данных.  
  
Векторные базы данных обычно реализуют один или несколько [[Алгоритм приближенного поиска ближайшего соседа|алгоритмов приближенного поиска ближайшего соседа]][1][2], что позволяет осуществлять поиск по базе данных с помощью векторного запроса для извлечения наиболее соответствующих запросу записей.  
+
Векторные базы данных обычно реализуют один или несколько [[Алгоритм приближенного поиска ближайшего соседа|алгоритмов приближенного поиска ближайшего соседа]]<ref>{{cite web|author1=Roie Schwaber-Cohen|title=What is a Vector Database & How Does it Work|url=https://www.pinecone.io/learn/vector-database/|access-date=18 November 2023|publisher=Pinecone}}</ref><ref name=":0">{{cite web|title=What is a vector database|url=https://www.elastic.co/what-is/vector-database|access-date=18 November 2023|publisher=[[Elastic NV|Elastic]]}}</ref>, что позволяет осуществлять поиск по базе данных с помощью векторного запроса для извлечения наиболее соответствующих запросу записей.  
  
Векторы можно рассматривать как математические представления данных в [[Многомерное пространство|многомерном пространстве]]. В этом пространстве каждое измерение соответствует признаку данных, а число измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве отражает его характеристики. Слова, фразы или целые документы, а также изображения, аудио и другие типы данных могут быть векторизованы[3].  
+
Векторы можно рассматривать как математические представления данных в [[Многомерное пространство|многомерном пространстве]]. В этом пространстве каждое измерение соответствует признаку данных, а число измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве отражает его характеристики. Слова, фразы или целые документы, а также изображения, аудио и другие типы данных могут быть [[Векторизация|векторизованы]]<ref name="auto1">{{Cite web|last=|date=2023-12-26|title=Vector database|url=https://learn.microsoft.com/en-us/azure/cosmos-db/vector-database|access-date=2024-01-11|website=learn.microsoft.com|language=}}</ref>.  
  
Эти векторы признаков могут быть вычислены из исходных данных с помощью методов машинного обучения, таких как алгоритмы извлечения признаков, векторное представление слов[4] или сети глубокого обучения. Цель состоит в том, чтобы семантически схожие элементы данных получали близкие друг к другу векторы признаков.  
+
Эти векторы признаков могут быть вычислены из исходных данных с помощью методов машинного обучения, таких как [[Алгоритм извлечения признаков|алгоритмы извлечения признаков]], [[векторное представление слов]][<ref>{{Cite web|author=Evan Chaki|date=2023-07-31|title=What is a vector database?|url=https://learn.microsoft.com/en-us/semantic-kernel/memories/vector-db|accessdate=|publisher=Microsoft|quote=A vector database is a type of database that stores data as high-dimensional vectors, which are mathematical representations of features or attributes.}}</ref> или сети [[Глубокое обучение|глубокого обучения]]. Цель состоит в том, чтобы семантически схожие элементы данных получали близкие друг к другу векторы признаков.  
  
Векторные базы данных могут использоваться для поиска по сходству, семантического поиска, мультимодального поиска, рекомендательных систем, больших языковых моделей (LLM), обнаружения объектов и т. д.[3] Векторные базы данных также часто используются для реализации метода расширенной генерации поиска (RAG) – метода улучшения результатов, получаемых в больших языковых моделях в зависимости от предметной области.  
+
Векторные базы данных могут использоваться для [[Поиск по сходству|поиска по сходству]], [[Семантический поиск|семантического поиска]], [[Мультимодальный поиск|мультимодального поиска]], [[Рекомендательная система|рекомендательных систем]], [[Большая языковая модель|больших языковых моделей]] (LLM), [[Обнаружение объектов|обнаружения объектов]] и т. д.<ref name="auto1" /> Векторные базы данных также часто используются для реализации метода расширенной генерации поиска (RAG) – метода улучшения результатов, получаемых в больших языковых моделях в зависимости от предметной области.  
  
 
Поисковым компонентом RAG может быть любая поисковая система, но чаще всего он реализуется в виде векторной базы данных. Собираются текстовые документы, описывающие интересующую область, и для каждого документа или раздела документа вычисляется вектор признаков (известный как «встраивание»), обычно с помощью сети глубокого обучения, который сохраняется в векторной базе данных. По запросу пользователя вычисляется вектор признаков запроса, и к базе данных отправляется запрос для извлечения наиболее релевантных документов. Затем они автоматически добавляются в контекстное окно большой языковой модели, и большая языковая модель приступает к созданию ответа на запрос с учетом этого контекста.[5]
 
Поисковым компонентом RAG может быть любая поисковая система, но чаще всего он реализуется в виде векторной базы данных. Собираются текстовые документы, описывающие интересующую область, и для каждого документа или раздела документа вычисляется вектор признаков (известный как «встраивание»), обычно с помощью сети глубокого обучения, который сохраняется в векторной базе данных. По запросу пользователя вычисляется вектор признаков запроса, и к базе данных отправляется запрос для извлечения наиболее релевантных документов. Затем они автоматически добавляются в контекстное окно большой языковой модели, и большая языковая модель приступает к созданию ответа на запрос с учетом этого контекста.[5]
 +
 +
== Литература ==
 +
 +
* [https://tproger.ru/articles/vektornye-bazy-dannyh--prostym-yazykom-pro-ustrojstvo-i-princip-raboty Векторные базы данных: простым языком про устройство и принцип работы]
 +
 +
== Примечания ==
 +
[[Категория:СУБД]]
 +
[[Категория:Базы данных]]
 +
[[Категория:Программное обеспечение для машинного обучения]]

Версия от 07:57, 25 августа 2025

800px-T64 and pencil.jpg Это незавершённая статья.
Вы можете помочь проекту, исправив и дополнив её.

Векторная база данных, хранилище векторов или поисковая система векторов — это база данных, использующая векторную модель для хранения векторов (списков чисел фиксированной длины) вместе с другими элементами данных.

Векторные базы данных обычно реализуют один или несколько алгоритмов приближенного поиска ближайшего соседа[1][2], что позволяет осуществлять поиск по базе данных с помощью векторного запроса для извлечения наиболее соответствующих запросу записей.

Векторы можно рассматривать как математические представления данных в многомерном пространстве. В этом пространстве каждое измерение соответствует признаку данных, а число измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве отражает его характеристики. Слова, фразы или целые документы, а также изображения, аудио и другие типы данных могут быть векторизованы[3].

Эти векторы признаков могут быть вычислены из исходных данных с помощью методов машинного обучения, таких как алгоритмы извлечения признаков, векторное представление слов[[4] или сети глубокого обучения. Цель состоит в том, чтобы семантически схожие элементы данных получали близкие друг к другу векторы признаков.

Векторные базы данных могут использоваться для поиска по сходству, семантического поиска, мультимодального поиска, рекомендательных систем, больших языковых моделей (LLM), обнаружения объектов и т. д.[3] Векторные базы данных также часто используются для реализации метода расширенной генерации поиска (RAG) – метода улучшения результатов, получаемых в больших языковых моделях в зависимости от предметной области.

Поисковым компонентом RAG может быть любая поисковая система, но чаще всего он реализуется в виде векторной базы данных. Собираются текстовые документы, описывающие интересующую область, и для каждого документа или раздела документа вычисляется вектор признаков (известный как «встраивание»), обычно с помощью сети глубокого обучения, который сохраняется в векторной базе данных. По запросу пользователя вычисляется вектор признаков запроса, и к базе данных отправляется запрос для извлечения наиболее релевантных документов. Затем они автоматически добавляются в контекстное окно большой языковой модели, и большая языковая модель приступает к созданию ответа на запрос с учетом этого контекста.[5]

Литература

Примечания

  1. Roie Schwaber-Cohen. What is a Vector Database & How Does it Work. Pinecone. Дата обращения: 18 ноября 2023.
  2. What is a vector database. Elastic. Дата обращения: 18 ноября 2023.
  3. 3,0 3,1 Vector database. learn.microsoft.com (26 декабря 2023). Дата обращения: 11 января 2024.
  4. Evan Chaki. What is a vector database? Microsoft (31 июля 2023). — «A vector database is a type of database that stores data as high-dimensional vectors, which are mathematical representations of features or attributes.»