向量数据库 Embedding-关键特性-文档中心-腾讯云

Embedding 功能是腾讯云向量数据库（Tencent?Cloud?VectorDB）提供将非结构化数据转换为向量数据的能力，目前已支持文本 Embedding 模型，能够覆盖多种主流语言的向量转换，包括但不限于中文、英文。开启?Embedding 功能并在创建 Collection 时配置模型，在插入、更新和相似性检索数据时直接传入原始文本，向量数据库会自动将原始文本进行转换，生成对应的向量数据后插入数据库或进行相似性计算，大幅提高业务接入效率。
快速接入
如果您想快速体验 Embedding 能力，腾讯云向量数据库（Tencent Cloud VectorDB）提供了 Python SDK 与 HTTP 的快速接入教程，请参见 连接并写入原始文本。
Embedding 实现架构
腾讯云向量数据库（Tencent Cloud VectorDB）通过 HTTP API 将这些非结构化文本数据送入向量数据库，向量数据库将原始文本数据转交给 Embedding 模型进行向量化，再将转换后的向量数据以及原始文本一并存储在向量数据库中。其整个实现架构，如下图所示。
?
模型信息 
腾讯云向量数据库（Tencent Cloud VectorDB）快速测试并分析来源于 Massive Text Embedding Benchmark（MTEB）上排名靠前的模型，选择出综合性能较好、适合不同应用场景的模型。当前，Embedding 功能支持的模型如下表所示。您可以依据数据集的语言类型、向量维度、以及综合性能得分选择合适的模型。
模型名
适用语言类型
Dimensions（维度）
最大 Token 数量
综合得分
?
?
?
?
?
?
Classification（分类）

Clustering（聚类）

Retrieval（检索）

bge-base-zh（推荐）
中文
768
512

67.06

47.64
69.53
m3e-base
中文
768
512
67.52
47.68
56.91
text2vec-large-chinese
中文
1024
512

60.66

30.02
41.94
e5-large-v2
英文
1024
512

75.24

44.49
50.56
multilingual-e5-base
多语言
768
514

65.35

40.68
40.68
计费说明
腾讯云向量数据库（Tencent Cloud VectorDB）默认开通 Embedding 功能。在使用 Embedding 功能时，腾讯云向量数据库（Tencent Cloud VectorDB）将会根据输入文本的 Token 数量进行计费。目前在公测阶段，暂不计费。
说明：
在?Embedding?模型中，Token?是指文本数据处理的基本单元。通常在文本中，一个?Token?可以是一个字或词，也可以是一个标点符号。在将文本输入到 Embedding?模型中进行向量化时，文本数据会被切分成一系列的?Token?序列，每个?Token?都会依据在模型中预先建立的词汇表的映射关系与唯一的数字?ID?相关联，实现将所有?Token?映射到一个固定维度的向量空间，完成文本的向量化。
发布地域
当前 Embedding 功能支持地域包含：北京、上海、广州、新加坡。
相关 API
您需要在建表时，做相关配置，才能在写入、更新、检索数据直接写入原始文本，应用 Embedding 功能进行向量化。相关 API，如下表所示。
相关 API
含义
Embedding 信息
? /collection/create?
创建集合
指定 Embedding 模型，配置输入文本的字段名及其输出的向量字段。
?/document/upsert?
插入数据
插入原始文本信息，将原始文本直接向量化，将原始文本与向量数据一并存入数据库。
?/document/update?
更新数据
更新之前写入的文本信息，自动向量化后存入数据库。
?/document/search?
检索数据
检索数据时，可根据输入的文本信息，自动向量化并检索与其最相似的数据。
?

模型名	适用语言类型	Dimensions（维度）	最大 Token 数量	综合得分			?	?
模型名	适用语言类型	Dimensions（维度）	最大 Token 数量	?	?	?	?	Classification（分类）	Clustering（聚类）	Retrieval（检索）
bge-base-zh（推荐）	中文	768	512	67.06	47.64	69.53
m3e-base	中文	768	512	67.52	47.68	56.91
text2vec-large-chinese	中文	1024	512	60.66	30.02	41.94
e5-large-v2	英文	1024	512	75.24	44.49	50.56
multilingual-e5-base	多语言	768	514	65.35	40.68	40.68

相关 API	含义	Embedding 信息
? /collection/create?	创建集合	指定 Embedding 模型，配置输入文本的字段名及其输出的向量字段。
?/document/upsert?	插入数据	插入原始文本信息，将原始文本直接向量化，将原始文本与向量数据一并存入数据库。
?/document/update?	更新数据	更新之前写入的文本信息，自动向量化后存入数据库。
?/document/search?	检索数据	检索数据时，可根据输入的文本信息，自动向量化并检索与其最相似的数据。

Embedding

本页目录：

快速接入

Embedding 实现架构

模型信息

计费说明

发布地域

相关 API