热门问题
时间线
聊天
视角

向量数据库

数据库类型 来自维基百科,自由的百科全书

向量数据库
Remove ads

向量数据库(Vector database)、向量存储向量搜索引擎是一种能够存储向量(固定长度的数值列表)及其他数据项的数据库。向量数据库通常实现一种或多种近似最近邻(Approximate Nearest Neighbor,ANN)算法[1][2][3],使用户可以使用查询向量搜索数据库,以检索最匹配的数据库记录。

向量是数据在高维空间中的数学表示。在这个空间中,每个维度对应数据的一个特征,维度的数量从几百到几万不等,具体取决于所表示数据的复杂性。向量在该空间中的位置代表其特征。单词、短语或整篇文档,以及图像、音频和其他类型的数据,都可以被向量化[4]

这些特征向量可以通过机器学习方法从原始数据中计算得到,例如特征提取算法、词嵌入[5]深度学习网络。其目标是使语义相似的数据项具有彼此接近的特征向量。

向量数据库可用于相似性搜索英语Similarity search语义检索多模态搜索英语Multimodal search推荐系统大型语言模型(LLM)、物体识别等。[6]

向量数据库也常用于实现检索增强生成(RAG),这是一种提高大型语言模型在特定领域响应能力的方法。RAG的检索组件可以是任何搜索系统,但最常见的实现方式是向量数据库。首先,收集描述目标领域的文本文档,并对每个文档或文档片段计算特征向量(称为“句子嵌入英语Sentence embedding”),通常使用深度学习网络进行计算,并将其存储在向量数据库中。当用户提供查询时,首先计算该查询的特征向量,并在数据库中进行搜索,以检索最相关的文档。然后,这些文档会自动添加到大型语言模型的上下文窗口中,模型基于这个上下文生成对用户查询的响应[7]

Remove ads

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads