有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
数据质量作为数据治理的核心环节,旨在帮助用户从数据准确性、及时性、完整性、唯一性、一致性和有效性六大维度进行表级、字段级的数据校验和问题数据排查。当前支持基于系统内置的56+通用规则模板进行快速配置,或通过自定义模板、自定义 SQL 的方式创建规则。用户可以根据实际业务需求选择离线周期检测,也可以关联开发生产任务进行同步校验。平台提供质量任务运维看板,以保障用户第一时间发现、定位问题数据。同时支持根据用户所设置的任务等级进行全渠道告警、自动阻塞异常任务,有效阻断脏数据扩展蔓延,降低用户问题处理成本和资源损耗。同时基于全面的质量评分体系,定期生成详尽的质量报告,支持用户灵活设置筛选条件进行自定义报告内容,让用户对全局数据质量情况及变化趋势了如指掌。

功能概览

数据质量模块支持对主流大数据引擎(E-MapReduce Hive、E-MapReduce Spark、DLC 等)进行全量数据质控校验。从准确性、及时性、完整性、唯一性、一致性和有效性六大维度进行表级、字段级质控规则配置,质量问题定位排查。用户可基于实际业务场景选择离线周期检测,或关联调度任务进行质量监控;设置规则强弱来决定是否阻塞下游任务,同时支持通过企微、微信、电话、短信、邮件、飞书等全渠道告警,快速通知用户,进行快速响应解决,避免脏数据蔓延。
数据质量模块主要功能划分如下:
功能
简述
质量概览
展示统计周期内质量检测结果的各项数据指标及质量任务告警、阻塞趋势,便于用户洞察数据质量的整体状况及周期性变化趋势。
规则模板
统一的规则看板及管理入口,支持对56+系统内置规则模板进行详情展示、查询、管理;支持对自定义规则模版进行增删改查操作。
数据监控
质量模块核心,支持表维度对监控规则、质控任务进行配置、管理。用户可查看任务详情,并设置执行策略、订阅渠道、监控状态等。
运维管理
质量检测任务运维入口,支持快速查找质量检测任务,查看任务运行情况和各项规则检测结果明细。提供关联血缘快捷入口,便于用户快速排查问题。
质量报告
基于数据源、统计日期等筛选项生成质量报告,支持用户查看表质量分明细、库质量分、维度质量分、综合质量分及分数变化趋势。

场景说明

?
?
?
离线周期校验
用户对选定的数据表、核心业务字段按天、按小时、按分钟等自定义频度进行周期性校验,按设定周期触发质量规则,定期告警、产出校验结果和质量报告。
关联生产调度
数据质量通过配置质量规则调度参数、分区表达式来匹配生产任务每天产出的分区,用户在执行策略设置中选择关联相关任务的调度节点,当任务开发、上线、运行完毕后将自动触发质量规则校验,依据校验结果和执行策略对下游进行阻塞、告警等避免问题数据扩展,并第一时间通知处理人进行处理。

费用说明

数据质量任务运行将产生的费用主要有以下三部分:
1. WeData 产品功能版本费用(前提)。
2. WeData 执行资源费用:根据质量任务实例所消耗的调度资源进行按量收费。
3. 非 WeData 直接费用:质量任务校验需要引擎、数据源服务配合执行(如 EMR、DLC、云数据仓库、云数据库 MySQL、COS 等),将产生引擎费用,此费用由引擎侧收取,不包含在 WeData 账单计费项中。各引擎具体收费标准请至腾讯云官网参考各引擎产品文档中的计费说明。
详情请参考:购买指南

注意事项

EMR 、DLC 等在配置数据质量规则前,需先进行元数据采集,详情请见 采集管理
EMR、DLC 配置表、字段数据质量规则后,产出数据的调度节点需要使用网络已经连通的调度资源组执行,并保障执行机稳定且版本已更新至新版本,才可以正常触发数据质量规则校验。
每个表均可配置多个表级、字段级数据质量规则,同时执行校验。


http://www.vxiaotou.com