有奖捉虫:行业应用 & 管理与支持文档专题 HOT

智能运维是什么

在业务数字化转型,部门信息化平台建设的过程中,各部门系统中可能存在大量数据库、海量数据表以及更高数量级的表字段。可以想象,面对如此庞大的数据处理量,再加上纷繁复杂的任务链路,该如何保障核心任务按时产出?如果任务无法产出,是否能够前置、自主发现?
针对这个问题,WeData 智能运维中心利用智能基线的方式,将支持用户对 WeData 上运行的周期性调度任务进行运维监控,为用户提供前置、自主的智能运维能力。

智能运维解决什么问题

1. 提前告诉用户,业务最关心的保障任务预计会在什么时候产出。
2. 提前告诉用户,业务最关心的保障任务有没有可能在预期的时间内产出。
例如:
如果这个任务无法在当天晚上8点按时产出,会在上午就通知用户。
如果这个任务的上游任务失败了,导致无法启动,会提前通知用户。
?
?
?

如何使用智能运维

首先,我们要理解智能运维是依靠基线作为预期点对任务运行过程进行智能监控的方法,基线是一种规则,和监控 Metrics 指标、运行状态本质上是一样的。
用户可以自行定义一个业务单元的数据产出时间警戒线和剩余水位,当关键任务被挂在了一个基线上时,智能基线会自动绘制出核心任务完整上游,根据每个节点的历史运行数据,自动测算出整个链路的产出时间,根据用户配置的产出时间和告警规则进行告警。
?
?
?

相关概念

基线:基线是一种规则,是用户所定义的核心业务任务需要保障的产出时间,如果没有按期产出,需要告警给对应的接收人。
保障任务:保障任务是开发人员最关注的核心任务,需要按时产出。
承诺时间:承诺时间是任务产出的警戒线。
告警余量:告警余量是用户定义的在告警前留下的预警空间,当达到告警余量时,就会给用户发送预警通知,用户可以在告警前加急处理。
基线实例:基线实例是用户创建的基线在每个生命周期内产生的,在生命周期内实时监测是否破线。
监控范围:用户所添加的保障任务连同有依赖关系的上游节点,都视为基线实例的监控范围。
关键路径:关键路径是监控范围上运行最久的一条路径,是实时切换的,永远以最久的路径来判断是否破线。

使用对象

数据工程师:关键任务的负责人,需要对任务能否按时产出负责。
运维人员:日常工作就是保证各任务的正常运维,把基线当成运维体系的标准规则。

使用场景

监控并保障任务在指定时间内运行成功并产出结果。
需要保障核心任务在9点要能产出。
如果预测到了9点,任务是无法完成的,需要提前告诉他。
最好能预留30分钟,提前发出告警,给用户一个缓冲整改的时间。

使用过程

1. 确认业务需求,即基线属性。
2. 进入 数据开发治理平台 WeData 控制台。单击左侧菜单中的项目列表,找到需要操作基线管理功能的目标项目,选择项目后,单击进入智能运维模块。再单击左侧菜单中的基线管理,单击新建基线进入创建基线页面。
?
3. 把需要保障任务挂载到基线上。
?
4. 配置基线需要遵循的告警触发策略。
?
5. 基线创建后提交运行即可生效。进入运维阶段,基线会周期性生成基线实例,显示基线的安全状态,侧面反映保障任务的运行状态。
?
6. 基线告警条件触发时,会按照对应基线的告警策略向接收人发送告警信息,并生成基线事件来记录基线触发情况。
?


http://www.vxiaotou.com