前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎

腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎

原创
作者头像
腾讯云大数据
发布2023-08-04 16:44:47
2K0
发布2023-08-04 16:44:47
举报

引言

信息化技术的飞速发展,使得海量数据爆发式增长。一方面,越来越多的数据可以为我们的生活带来便利,但另一方面,也给软件开发带来巨大的挑战——图片、声音、视频等不同结构的数据越来越多地出现,为搜索分析带来巨大的挑战,传统的关键词搜索,搜索结果局限于输入的关键词,用户体验较差。向量检索的出现,给我们提供了一个新的思路,向量数据库将非结构化、半结构化甚至是结构化等数据以向量形式存储,实现相似度搜索、聚类、降维等操作,结合机器学习模型,为用户更加智能的搜索服务。

然而,集文本搜索?向量检索?AI能力于一身,且成熟稳定、值得信赖的云端搜索引擎,在业内屈指可数,腾讯云大数据Elasticsearch Service近期首发上线的ES 8.8.1版本,提供了强大的云端AI增强与向量检索能力,支持在端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,10亿级向量检索平均响应延迟控制在毫秒级,助力客户实现由AI驱动的高级搜索能力,为搜索与分析带来全新的前沿体验。

强大的AI增强搜索引擎

结合AI 的最佳实践和 Elastic 的文本搜索,Elasticsearch为开发人员提供了一整套将复杂的检索算法与大型语言模型(LLM)集成的能力。其特性参考如下:

1)自定义Transformer模型

开发人员可在 Elastic 中管理和使用自己的transformer 模型来完成各种自然语言处理任务,以适应特定的业务场景。

2)Elastic训练的优化搜索模型

使用 Elastic 训练的开箱即用的 Learned Sparse Encoder机器学习模型来优化搜索,可在各种领域提供更好相关性、语义化的搜索。

3)与第三方 Transformer 模型集成,提取直观摘要

通过 API与大语言模型集成(如 OpenAl的 GPT- 3和 4),从Elasticsearch数据源中提取摘要。

4)充分应用各种自然语言处理(NLP)任务和模型

通过强大的自然语言处理能力,处理各种NLP任务和模型,使得搜索结果更加符合自然语言的语义。

5)第三方工具集成,构建复杂的数据管道和生成式AI应用程序

与第三方工具如LangChain集成,帮助用户构建复杂的数据管道和生成式AI应用程序。

原生向量搜索引擎

企业可以将腾讯云ES作为向量数据库使用,有效地创建、存储和搜索密集向量,为用户提供更加智能的搜索功能。例如,企业可在腾讯云ES上传自定义大数据模型来做Embedding,如词嵌入模型(Word Embeddings)或深度学习模型(如BERT),在读写过程中实时将图片、文本等数据转换为向量,然后存入Elasticsearch构建索引并进行相似度召回。同时,在召回后,可选择将TOP结果传入LLM大语言模型(如GPT、混元) 等,对信息进行对话式结果整合,最终返回给用户,实现对话式搜索。相关特性参考如下:

1)提供图索引,通过HNSW实现高效的最近邻搜索。

2)支持端到端的向量生成、向量索引、向量相似性比较,无需额外的平台进行向量推理。

3)一体化的搜索体验:多路召回混合打分、Faceting聚合分析能力、基于角色的访问控制。

4)提供向量类型,将向量存储为字节而不是浮点,同时,应用主成分分析PCA等方法降低向量维度,节省存储空间。

5)持续优化的向量索引和查询性能。

全新混合排序算法

Elasticsearch 8.8.1版本使用最新的Reciprocal Rank Fusion (RRF) 混合排序算法,可同时支持全文检索和向量搜索,让开发人员更好地优化Al搜索引擎,实现语义和关键字的组合查询。

客户案例介绍

以使用腾讯云ES的某知名新媒体网站客户为例,客户通过腾讯云ES提供的强大搜索能力,实现文本搜索+向量搜索的混合搜索,精准的对用户上传的图文内容进行违规检测,进而降低业务风险。其相关实现如下:

1)相关数据通过自定义的模型进行Embedding之后,转换成向量,存储在索引里面。

2)APP的用户用户发表评论或者上传文章等操作,相关数据将实时的进行Embbdding,并与索引内的向量进行相似性比对,结合文本搜索能力,实现多路召回。

3)如相关内容涉嫌违规,将会被驳回,并予以警告。

写在最后

腾讯云大数据Elasticsearch Service近期首发上线的ES 8.8.1版本,提供向量检索和AI增强功能,支持在单一端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,结合腾讯云ES提供的丰富的云原生能力,支持高达十亿级向量检索,平均响应延迟控制在毫秒级。使用该服务,你可以轻松便捷地创建集群、部署NLP模型,并进行搜索和推理任务,快来体验吧!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强大的AI增强搜索引擎
    • 1)自定义Transformer模型
      • 2)Elastic训练的优化搜索模型
        • 3)与第三方 Transformer 模型集成,提取直观摘要
          • 4)充分应用各种自然语言处理(NLP)任务和模型
            • 5)第三方工具集成,构建复杂的数据管道和生成式AI应用程序
            • 原生向量搜索引擎
            • 全新混合排序算法
            • 客户案例介绍
            • 写在最后
            相关产品与服务
            Elasticsearch Service
            腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档


            http://www.vxiaotou.com