向量数据库 AI 套件-关键特性-文档中心-腾讯云

什么是 AI 套件？
AI 套件是腾讯云向量数据库（Tencent Cloud VectorDB）提供的一站式文档检索解决方案，包含自动化文档解析、信息补充、向量化、内容检索等能力，并拥有丰富的可配置项，助力显著提升文档检索召回效果。用户仅需上传原始文档，数分钟内即可快速构建专属知识库，大幅提高知识接入效率。
快速接入
如需快速体验 AI 套件能力，请参见 使用 AI 套件快速上传文件并检索。
设计思想
AI 套件检索方案提供完整的文档预处理和灵活的内容检索能力。用户只需上传 Markdown 格式的文档文件。腾讯云向量数据库将自动进行文本切分（Split）、信息补充、向量化（Embedding）和索引构建等一系列操作，完成知识库的建立。在进行检索时，会先基于切分后的内容进行相似度计算，并结合词（Words）向量进一步对检索结果进行精排，最终返回排名靠前的 Top K 条数据和其上下文内容。这种综合利用词级别做精排的检索方式，提供了更专业、更精确的内容检索体验。
?
基本概念
请先了解数据库设计的 逻辑结构，以便更好地理解 AI 套件相关的基本概念。
AI 类 Database
AI 类 Database 是专门用于 AI 套件上传和存储文件的向量数据库系统，可用于构建知识库。用户可以直接将文件上传至 AI 类 Database 下的 CollectionView 中，自动构建个性化的知识库。
说明：
AI 类 Database 不支持直接对向量数据进行操作，已上传的文件不支持更新文件内容。
为便于区别，腾讯云向量数据库将可直接操作向量数据的数据库称为 Base 类 Database。用户可以将向量数据上传至 Base 类 Database 中进行存储和管理，并可以直接对向量数据进行操作和处理。更多信息，请参见 Database。
CollectionView
AI 类数据库文档组的集合视图，由多个 DocumentSet 组成，每个 DocumentSet 存储一组数据，对应一个文件数据。多个 DocumentSet 构成一个 CollectionView。
DocumentSet
相对 Document，DocumentSet 是 AI 类数据库中存储在 CollectionView 中的非结构化数据，是文件被拆分成多个 Document 的集合。每个DocumentSet 存储一组数据，对应一个文件，是 CollectionView 下存储文件的最小单元。
Metadata
文件元数据，指上传文件时所携带的文件元数据信息，可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段，以Key-Value格式存储。用户可根据元数据构建标量字段的 Filter 索引，以检索并管理文件。
Word
词语，是智能文档检索中最小的分割粒度，通常由一个或多个字符组成。在结果召回时，将对召回段落中所有 Words 进行相似性计算，以便于根据词向量进一步对检索结果做精排。
约束与限制
1. 当前支持导入数据库的文件类型包含： Markdown、PDF、Word、PPT，后续将逐步支持更多文件类型，请关注 产品动态。
说明：
2024-02-22 之前创建的实例，请 提交工单 申请升级实例版本，才能支持上传 PDF、Word、PPT。
2. 每次只能上传一个文件，Markdown 类型文件最大限制为 1MB，其余类型最大限制为 10MB。
3. 当前支持地域包含：北京、上海、广州、新加坡。
开发者工具
您可以通过 Python SDK 或 HTTP 的方式访问 AI 类 Database。具体信息，请参见下表。
类别
功能
Demo & API
Python SDK
将 AI 类 HTTP API 封装为 Python 函数或类
?SDK AI Demo?
HTTP 
支持创建 AI 类数据库、集合、上传并检索文件
?HTTP API?
?
?
?
类别	功能	Demo & API
Python SDK	将 AI 类 HTTP API 封装为 Python 函数或类	?SDK AI Demo?
HTTP	支持创建 AI 类数据库、集合、上传并检索文件	?HTTP API?
AI 套件

本页目录：

什么是 AI 套件？

快速接入

设计思想

基本概念

AI 类 Database

CollectionView

DocumentSet

Metadata

Word

约束与限制

开发者工具