有奖捉虫:行业应用 & 管理与支持文档专题 HOT
Embedding 功能是腾讯云向量数据库(Tencent?Cloud?VectorDB)提供将非结构化数据转换为向量数据的能力,目前已支持文本 Embedding 模型,能够覆盖多种主流语言的向量转换,包括但不限于中文、英文。开启?Embedding 功能并在创建 Collection 时配置模型,在插入、更新和相似性检索数据时直接传入原始文本,向量数据库会自动将原始文本进行转换,生成对应的向量数据后插入数据库或进行相似性计算,大幅提高业务接入效率。

快速接入

如果您想快速体验 Embedding 能力,腾讯云向量数据库(Tencent Cloud VectorDB)提供了 Python SDK 与 HTTP 的快速接入教程,请参见 连接并写入原始文本

Embedding 实现架构

腾讯云向量数据库(Tencent Cloud VectorDB)通过 HTTP API 将这些非结构化文本数据送入向量数据库,向量数据库将原始文本数据转交给 Embedding 模型进行向量化,再将转换后的向量数据以及原始文本一并存储在向量数据库中。其整个实现架构,如下图所示。
?

模型信息

腾讯云向量数据库(Tencent Cloud VectorDB)快速测试并分析来源于 Massive Text Embedding Benchmark(MTEB)上排名靠前的模型,选择出综合性能较好、适合不同应用场景的模型。当前,Embedding 功能支持的模型如下表所示。您可以依据数据集的语言类型、向量维度、以及综合性能得分选择合适的模型。
模型名
适用语言类型
Dimensions(维度)
最大 Token 数量
综合得分
Classification(分类)
Clustering(聚类)
Retrieval(检索)
bge-base-zh(推荐)
中文
768
512
67.06
47.64
69.53
m3e-base
中文
768
512
67.52
47.68
56.91
text2vec-large-chinese
中文
1024
512
60.66
30.02
41.94
e5-large-v2
英文
1024
512
75.24
44.49
50.56
multilingual-e5-base
多语言
768
514
65.35
40.68
40.68

计费说明

腾讯云向量数据库(Tencent Cloud VectorDB)默认开通 Embedding 功能。在使用 Embedding 功能时,腾讯云向量数据库(Tencent Cloud VectorDB)将会根据输入文本的 Token 数量进行计费。目前在公测阶段,暂不计费。
说明:
在?Embedding?模型中,Token?是指文本数据处理的基本单元。通常在文本中,一个?Token?可以是一个字或词,也可以是一个标点符号。在将文本输入到 Embedding?模型中进行向量化时,文本数据会被切分成一系列的?Token?序列,每个?Token?都会依据在模型中预先建立的词汇表的映射关系与唯一的数字?ID?相关联,实现将所有?Token?映射到一个固定维度的向量空间,完成文本的向量化。

发布地域

当前 Embedding 功能支持地域包含:北京、上海、广州、新加坡。

相关 API

您需要在建表时,做相关配置,才能在写入、更新、检索数据直接写入原始文本,应用 Embedding 功能进行向量化。相关 API,如下表所示。
相关 API
含义
Embedding 信息
创建集合
指定 Embedding 模型,配置输入文本的字段名及其输出的向量字段。
插入数据
插入原始文本信息,将原始文本直接向量化,将原始文本与向量数据一并存入数据库。
更新数据
更新之前写入的文本信息,自动向量化后存入数据库。
检索数据
检索数据时,可根据输入的文本信息,自动向量化并检索与其最相似的数据。
?


http://www.vxiaotou.com