集群事件

最近更新时间：2024-04-09 14:41:11
我的收藏
本页目录：

功能介绍
集群事件中包含事件列表和事件策略。
事件列表：记录集群发生的关键变化事件或异常事件。
事件策略：支持根据业务情况自定义事件监控触发策略，已开启监控的事件可设置为集群巡检项。
查看事件列表
1. 登录 弹性 MapReduce 控制台，在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择集群监控 > 集群事件 > 事件列表，可直接查看当前集群所有操作事件。
?

严重程度说明如下：
致命：节点或服务的异常事件，人工干预处理，否则服务不可用，这类事件可能持续一段时间。
严重：暂时未造成服务或节点不可用问题，属于预警类，如果一直不处理会产生致命事件。
一般：记录集群发生的常规事件，一般无需特别处理。
3. 单击当日触发次数列值可查看事件的触发记录，同时可查看事件记录相关指标、日志或现场。
?
?
设置事件策略
1. 登录 EMR 控制台，在集群列表中单击对应的集群 ID/名称进入集群详情页。
2. 在集群详情页中选择集群监控 > 集群事件 > 事件策略，可以自定义设置事件监控触发策略。
3. 事件配置列表包含：事件名、事件发现策略、严重程度（致命/严重/一般）、开启监控，支持修改和保存。
?
?
4. 事件发现策略分两类：一类事件为系统固定策略事件，不支持用户修改；另一类事件会因客户业务标准的不同而变化，支持用户设置。
?
?
5. 事件策略可自定义是否开启事件监控，已开启监控的事件才支持在集群巡检的巡检项中选择。部分事件默认开启，部分事件默认开启且不可关闭。具体规则如下：
类别
事件名称
事件含义
建议&措施
默认值
严重程度
允许关闭
默认开启
节点
CPU 利用率连续高于阈值
机器 CPU 利用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
?
CPU IO wait 平均值高于阈值
t 秒内机器 CPU iowait 使用率平均值 >= m（300<=t<=2592000）
人工排查
m=60, t=1800
严重
是
是
?
CPU 1分钟负载连续高于阈值
CPU 1分钟负载 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=8, t=1800
一般
是
否
?
CPU 5分钟负载连续高于阈值
CPU 5分钟负载 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=8, t=1800
严重
是
否
?
内存使用率持续高于阈值
内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=85, t=1800
严重
是
是
?
系统进程总数连续高于阈值
系统进程总数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=10000, t=1800
严重
是
是
?
节点文件句柄使用率持续超过阈值
节点文件句柄使用率 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=85, t=1800
一般
是
否
?
节点 TCP 连接数持续超过阈值
节点 TCP 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
检查是否存在连接泄露
m=10000, t=1800
一般
是
否
?
节点内存使用配置超过阈值
节点上所有角色内存使用配置叠加超过节点物理内存阈值
调整节点进程堆内存分配
90%
严重
是
否
?
元数据库异常
使用连接测试命令无法正常连接元数据库
人工排查
-
严重
是
是
?
单盘空间使用率持续高于阈值
单盘空间使用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
?
单盘 IO 设备利用率持续高于阈值
单盘 IO 设备利用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
?
单盘 INODES 使用率持续高于阈值
单盘 INODES 使用率>=m，持续时间 t秒(300<=t<=2592000) 
节点扩容或升配
m=0.85, t=1800
严重
是
是
?
子机 UTC 时间和 NTP 时间差值高于阈值
子机 UTC 时间和 NTP 时间差值高于阈值(单位毫秒)
1. 确保 NTP daemon 处于运行状态 
2. 确保与 NTP server 的网络通信正常
差值=30000
严重
是
是
?
故障节点自动补偿
当开启自动补偿功能后，task 节点和 router 节点异常时，系统将自动购买同机型规格配置进行补偿替换
1. 补偿替换成功，无须关注 
2. 补偿替换失败，请前往 控制台 手动销毁，重新购买节点进行替换
-
一般
是
是
?
节点故障
集群中有故障节点
请前往 控制台 进行处理或 提交工单 联系专员对接处理。
-
严重
否
是
?
节点磁盘 IO 异常
节点磁盘 IO 异常（检测基于设备 IOPS 和 IO 设置使用率，适用部分 IO 异常情况）
节点磁盘 IO 异常。
处理方式：可能是 IO Hang 或磁盘异常导致
-
严重
是
否
HDFS
HDFS 文件总数持续高于阈值
集群文件总数量 >= m，持续时间 t 秒（300<=t<=2592000）
调大 namenode 内存
m=50,000,000, t=1800
严重
是
否
?
HDFS 总 block 数量持续高于阈值
集群 Blocks 总数量 >= m，持续时间 t 秒（300<=t<=2592000）
调大 namenode 内存或调大 block size
m=50,000,000, t=1800
严重
是
否
?
HDFS 标记为 Dead 状态的数据节点数量持续高于阈值
标记为 Dead 状态的数据节点数量 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1,t=1800
一般
是
否
?
HDFS 存储空间使用率持续高于阈值
HDFS 存储空间使用率 >= m，持续时间 t 秒（300<=t<=2592000）
清理 HDFS 中的文件或对集群扩容
m=85, t=1800
严重
是
是
?
NameNode 发生主备切换
NameNode 发生主备切换
排查 NameNode 切换的原因
-
严重
是
是
?
NameNode RPC 请求处理延迟持续高于阈值
RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）
人工排查
m=300, t=300
严重
是
否
?
NameNode 当前连接数持续高于阈值
NameNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
?
NameNode 发生 full GC
NameNode 发生 full GC
参数调优
-
严重
是
是
?
NameNode JVM 内存使用率持续高于阈值
NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 NameNode 堆内存大小
m=85, t=1800
严重
是
是
?
DataNode RPC 请求处理延迟持续高于阈值
RPC 请求处理延迟 >= m毫秒，持续时间 t 秒（300<=t<=2592000）
人工排查
m=300, t=300
一般
是
否
?
DataNode 当前连接数持续高于阈值
DataNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
?
DataNode 发生 full GC
NameNode 发生 full GC
参数调优
-
一般
是
否
?
DataNode JVM 内存使用率持续高于阈值
NameNode JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 DataNode 堆内存大小
m=85, t=1800
一般
是
是
?
HDFS 两个NameNode 服务状态均为 Standby
两个 NameNode 角色同时处于 StandBy 状态
人工排查
-
严重
是
是
?
HDFS MissingBlocks数量持续高于阈值
集群 MissingBlocks 数量>=m，持续时间t秒(300<=t<=604800)
建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
m=1,t=1800
严重
是
是
?
HDFS NameNode 进入安全模式
NameNode 进入安全模式(持续300s)
建议排查 HDFS 出现数据块损坏，使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
-
严重
是
是
?
HDFS NameNode
 长时间未做 
Checkpoint
HDFS NameNode 长时间未做 Checkpoint
1. 检查 SecondaryNameNode(Standby  NameNode) 的状态
2. 检查 HDFS 配置文件 hdfs-site.xml  中的 
dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns 参数
3. 查看 HDFS 集群的日志信息
m=24
一般
是
是
?
HDFS 小文件占比超过指定阈值
小文件比率>=50%,每天巡检一次
合并相同类型的小文件或定时清理掉小文件或用对象存储来存小文件
m=50
一般
是
是
YARN
集群当前丢失的 NodeManager 的个数持续高于阈值
集群当前丢失的 NodeManager 的个数 >= m，持续时间 t 秒（300<=t<=2592000）
检查 NM 进程状态，检查网络是否畅通
m=1, t=1800
一般
是
否
?
Pending Containers 个数持续高于阈值
pending Containers 个数 >= m个，持续时间 t 秒（300<=t<=2592000）
合理指定 YARN 任务可用资源
m=90, t=1800
一般
是
否
?
集群内存使用率持续高于阈值
内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
集群扩容
m=85, t=1800
严重
是
是
?
集群 CPU 使用率持续高于阈值
CPU 使用率 >= m，持续时间 t 秒（300<=t<=2592000）
集群扩容
m=85, t=1800
严重
是
是
?
各队列中可用的 CPU 核数持续低于阈值
任意队列中可用 CPU 核数 <= m，持续时间 t 秒（300<=t<=2592000）
给队列分配更多资源
m=1, t=1800
一般
是
否
?
各队列中可用的内存持续低于阈值
任意队列中可用内存 <= m，持续时间 t 秒（300<=t<=2592000）
给队列分配更多资源
m=1024, t=1800
一般
是
否
?
ResourceManager 发生主备切换
ResourceManager 发生了主备切换
检查 RM 进程状态，查看 standby RM 日志查看主备切换原因
-
严重
是
是
?
ResourceManager 发生 full GC
ResourceManager 发生了 full GC
参数调优
-
严重
是
是
?
ResourceManager JVM 内存使用率持续高于阈值
RM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 ResourceManager 堆内存大小
m=85, t=1800
严重
是
是
?
NodeManager 发生 full GC
NodeManager 发生 full GC
参数调优
-
一般
是
否
?
NodeManager 可用的内存持续低于阈值
单个 NM 可用内存持续 <= m，持续时间 t 秒（300<=t<=2592000）
调整 NodeManager 堆内存大小
m=1, t=1800
一般
是
否
?
NodeManager JVM 内存使用率持续高于阈值
NM JVM 内存使用率持续 >= m，持续时间 t 秒（300<=t<=2592000）
调整 NodeManager 堆内存大小
m=85, t=1800
一般
是
否
?
YARN ResourceManager 无 active 状态
YARN ResourceManager 无 active 状态
人工排查
t=90
严重
是
是
?
Yarn Application作业运行失败次数持续高于阈值
Yarn Application 作业运行失败
人工排查
m=1,t=300
一般
是
否
?
YARN当前不健康的NodeManager的个数持续高于阈值
Unhealthy NodeManager个数>=m
，持续时间t秒（300<=t<=2592000）
人工排查
m=1,t=1800
一般
是
否
HBase
集群处于 RIT Region 个数持续高于阈值
集群处于 RIT Region 个数 >= m，持续时间 t 秒（300<=t<=2592000）
HBase2.0 版本以下，hbase hbck -fixAssigment
m=1, t=60
严重
是
是
?
集群 dead RS 数量持续高于阈值
集群 dead RegionServer 数量 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1, t=300
一般
是
是
?
集群每个 RS 平均 REGION 数持续高于阈值
集群每个 RegionServer 平均 REGION 数 >= m，持续时间 t 秒（300<=t<=2592000）
节点扩容或升配
m=300, t=1800
一般
是
是
?
HMaster 发生 full GC
HMaster 发生了 full GC
参数调优
m=5, t=300
一般
是
是
?
HMaster JVM 内存使用率持续高于阈值
HMaster JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 HMaster 堆内存大小
m=85, t=1800
严重
是
是
?
HMaster 当前连接数持续高于阈值
HMaster 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1000, t=1800
一般
是
否
?
RegionServer 发生 full GC
RegionServer 发生 full GC
参数调优
m=5, t=300
严重
是
否
?
RegionServer JVM 内存使用率持续高于阈值
RegionServer JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 RegionServer 堆内存大小
m=85, t=1800
一般
是
否
?
RegionServer 当前 RPC 连接数持续高于阈值
RegionServer 当前 RPC 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=1000, t=1800
一般
是
否
?
RegionServer Storefile 个数持续高于阈值
RegionServer Storefile 个数 >= m，持续时间 t 秒（300<=t<=2592000）
建议执行 major compaction
m=50000, t=1800
一般
是
否
?
HBASE 两个 HMaster 服务状态均为 Standby
两个 HMaster 角色同时处于 StandBy 状态
人工排查
-
严重
是
是
?
HMaster
发生主备切换
HMaster发生主备切换
通过 HMaster 服务日志进行排查
-
严重
是
是
Hive
HiveServer2 发生 full GC
HiveServer2 发生 full GC
参数调优
m=5, t=300
严重
是
是
?
HiveServer2 JVM 内存使用率持续高于阈值
HiveServer2 JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 HiveServer2 堆内存大小
m=85, t=1800
严重
是
是
?
HiveMetaStore 发生 full GC
HiveMetaStore 发生 full GC
参数调优
m=5, t=300
一般
是
是
?
HiveWebHcat 发生 full GC
HiveWebHcat 发生 full GC
参数调优
m=5, t=300
一般
是
是
Zookeeper
Zookeeper 连接数持续高于阈值
Zookeeper 连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=65535, t=1800
一般
是
否
?
ZNode 节点数量持续高于阈值
ZNode 节点数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
m=2000, t=1800
一般
是
否
?
Zookeeper 发生 leader 切换
Zookeeper发生leader切换
通过 Zookeeper 服务日志进行排查
-
严重
是
是
Impala
ImpalaCatalog JVM 内存使用率持续高于阈值
ImpalaCatalog JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 ImpalaCatalog 堆内存大小
m=0.85, t=1800
一般
是
否
?
ImpalaDaemon JVM 内存使用率持续高于阈值
ImpalaDaemon JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)   
调整 ImpalaDaemon 堆内存大小   
m=0.85, t=1800
一般
是
否
?
Impala Beeswax API 客户端连接数高于阈值
Impala Beeswax API 客户端连接数 >=m   
控制台调整 impalad.flgs 配置 fe_service_threads 数量  
m=64,t=120
严重
是
是
?
Impala HS2客户端连接数高于阈值
Impala HS2客户端连接数 >=m
控制台调整 impalad.flgs 配置 fe_service_threads 数量  
m=64,t=120
严重
是
是
?
Query 运行时长超过阈值
Query 运行时长超过阈值>=m(seconds)
人工排查
-
严重
是
否
?
执行 Query 失败总数高于阈值 
执行 Query 失败率高于阈值>=m，统计时间粒度t秒(300<=t<=604800)    
人工排查
m=1，t=300
严重
是
否
?
提交 Query 总数高于阈值
执行 Query 失败总数高于阈值>=m，统计时间粒度t秒(300<=t<=604800)
人工排查
m=1，t=300
严重
是
否
?
执行 Query 失败率高于阈值
提交 Query 总数高于阈值 >=m，统计时间粒度t秒(300<=t<=604800)
人工排查
m=1，t=300
严重
是
否
PrestoSQL
PrestoSQL 当前失败节点数量持续高于阈值
PrestoSQL 当前失败节点数量>=m，持续时间t秒(300<=t<=604800) 
人工排查
m=1, t=1800
严重
是
是
?
PrestoSQL 当前资源组排队资源持续高于阈值
PrestoSQL 资源组排队任务>=m，持续时间 t秒(300<=t<=604800)    
参数调优
m=5000, t=1800
严重
是
是
?
PrestoSQL 每分钟失败查询数量超过阈值
PrestoSQL 失败查询数量 >=m
人工排查
m=1, t=1800
严重
是
否
?
PrestoSQLCoordinator 发生full GC
PrestoSQLCoordinator 发生full GC
参数调优
-
一般
是
否
?
PrestoSQLCoordinator JVM 内存使用率持续高于阈值
PrestoSQLCoordinator JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoSQLCoordinator 堆内存大小
m=0.85, t=1800
严重
是
是
?
PrestoSQLWorker 发生 full GC
PrestoSQLWorker 发生 full GC 
参数调优
-
一般
是
否
?
PrestoSQLWorker JVM 内存使用率持续高于阈值
PrestoSQLWorker JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoSQLWorker 堆内存大小
m=0.85, t=1800
严重
是
否
Presto
Presto 当前失败节点数量持续高于阈值
Presto 当前失败节点数量>=m，持续时间t秒(300<=t<=604800) 
人工排查
m=1, t=1800
严重
是
是
?
Presto 当前资源组排队资源持续高于阈值
Presto 资源组排队任务>=m，持续时间 t秒(300<=t<=604800)   
参数调优
m=5000, t=1800
严重
是
是
?
Presto 每分钟失败查询数量超过阈值
Presto 失败查询数量 >=m
人工排查
m=1, t=1800
严重
是
否
?
PrestoCoordinator 发生full GC
PrestoCoordinator 发生full GC
参数调优
-
一般
是
否
?
PrestoCoordinator JVM 内存使用率持续高于阈值
PrestoCoordinator JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoCoordinator 堆内存大小
m=0.85, t=1800
一般
是
是
?
PrestoWorker 发生 full GC
PrestoWorker 发生 full GC 
参数调优
-
一般
是
否
?
PrestoWorker JVM 内存使用率持续高于阈值
PrestoWorker JVM 内存使用率>=m，持续时间 t秒(300<=t<=604800)
调整 PrestoWorker 堆内存大小
m=0.85, t=1800
严重
是
否
Alluxio
Alluxio 当前 Worker 总数持续低于阈值
Alluxio 当前 Worker 总数持续低于阈值<=m，持续时间 t秒(300<=t<=604800)
人工排查
m=1, t=1800
严重
是
否
?
Alluxio worker层上资源使用率持续高于阈值
Alluxio 当前 Worker 的层上容量使用率>=m, 持续时间 t秒(300<=t<=604800)  
参数调优
m=0.85, t=1800
严重
是
否
?
AlluxioMaster 发生full GC
AlluxioMaster 发生full GC
人工排查
-
一般
是
否
?
AlluxioMaster JVM 内存使用率持续高于阈值
AlluxioMaster JVM 内存使用率 >=m, 持续时间 t秒(300<=t<=604800)    
调整 AlluxioWorker 堆内存大小
m=0.85, t=1800
严重
是
是
?
AlluxioWorker 发生 full GC
AlluxioWorker 发生 full GC
人工排查
-
一般
是
否
?
AlluxioWorker JVM 内存使用率持续高于阈值
AlluxioWorker JVM 内存使用率 >=m, 持续时间 t秒(300<=t<=604800)
调整 AlluxioMaster 堆内存大小
m=0.85, t=1800
严重
是
是
kudu
集群副本倾斜度高于阈值
集群副本倾斜度 >=m，持续时间 t秒(300<=t<=3600)
使用 rebalance 命令对 replica 进行平衡
m=100, t=300
一般
是
是
?
混合时钟错误高于阈值
混合时钟错误 >=m，持续时间 t秒(300<=t<=3600)
确保 NTP daemon 处于运行状态，确保与 NTP server 的网络通信正常
m=5000000, t=300
一般
是
是
?
处于运行中状态的 tablet 高于阈值
处于运行中状态的 tablet 数量 >=m，持续时间 t秒(300<=t<=3600)
单个节点 tablet 数量太多会影响性能，建议清理不需要的表和分区，或适当扩容
    m=1000, t=300   
一般
是
是
?
处于失败状态的 tablet 高于阈值
处于失败状态的 tablet 数量 >=m，持续时间 t秒(300<=t<=3600) 
检查是否有磁盘不可用或者数据文件损坏
    m=1, t=300
一般
是
是
?
处于失败状态的数据目录数量高于阈值
处于失败状态的数据目录数量 >=m，持续时间 t秒(300<=t<=3600) 
检查 fs_data_dirs 参数中配置的路径是否可用
        m=1, t=300
严重
是
是
?
容量耗尽的数据目录数量高于阈值
容量耗尽的数据目录数量 >=m，持续时间 t秒(120<=t<=3600)
清理不需要的数据文件，或适当扩容
m=1, t=120
严重
是
是
?
因队列过载被拒绝的写请求数高于阈值
因队列过载被拒绝的写请求数>=m，持续时间t秒(300<=t<=3600)       
检查是否存在写热点或者工作线程数量偏少
m=10, t=300 
一般
是
否
?
过期 scanner 的数量高于阈值
过期 scanner 的数量 >=m，持续时间 t秒(300<=t<=3600)
数据读取完成后，记得调用 scanner 的 close 方法
m=100, t=300
一般
是
是
?
错误日志的数量高于阈值
错误日志的数量 >=m，持续时间 t秒(300<=t<=3600)
人工排查
m=10, t=300 
一般
是
是
?
在队列中等待超时的 rpc 请求数量高于阈值
在队列中等待超时的 rpc 请求数量 >=m，持续时间 t秒(300<=t<=3600)
检查系统负载是否过高
m=100, t=300
一般
是
是
Kerberos
Kerberos响应时间持续高于阈值
Kerberos 响应时间>=m(单位毫秒)，持续时间t秒(300<=t<=604800)
人工排查
m=100,t=1800
严重
是
是
集群
自动伸缩策略执行失败
1. 集群绑定的子网弹性 IP 不足，扩容规则执行失败。
2. 预设扩容资源规格库存不足，扩容规则执行失败。
3. 账号余额不足，扩容规则执行失败。
4. 内部错误。
1. 更换同 vpc下的其他子网。
2. 可尝试更换充足的资源规格或 提交工单 联系内部研发人员。
3. 进行账户余额充值，保证账号余额充足。
4. ?提交工单 联系内部研发人员。
-
严重
否
是
?
自动伸缩策略执行超时
1. 集群处于冷却窗口期，暂时无法扩缩容。
2. 当前设置过期重试时间过短，规则在过期重试时间内未触发扩缩容。
3. 集群状态未处于不可扩容状态。
1. 调整规则的冷却时间。
2. 建议调长过期重试时间。
3. 稍后重试或 提交工单 联系内部研发人员。
-
严重
否
是
?
自动伸缩策略未触发
1. 未设置扩容资源规格，扩容规则无法触发。
2. 弹性资源已达到最大节点数限制，无法触发扩容。
3. 弹性资源已达到最小节点数限制，无法触发缩容。
4. 时间伸缩执行时间范围已到期。
5. 集群无弹性资源，缩容规则无法触发。
1. 添加伸缩规格配置，请至少设置一个弹性资源规格
2. 弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数。
3. 弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数。
4. 如需继续使用该规则进行自动伸缩，请修改规则的生效时间范围。
5. 补充弹性资源后执行缩容规则。
-
一般
是
是
?
自动伸缩扩容部分成功
1. 资源库存量小于扩容数量，仅补充部分资源。
2. 扩容数量大于实际发货数量，仅补充部分资源。
3. 扩容弹性资源已达到最大节点数限制，扩容规则执行部分成功。
4. 缩容弹性资源已达到最小节点数限制，缩容规则执行部分成功。
5. 集群绑定的子网弹性 IP 不足，资源补足失败
6. 预设扩容资源规格库存不足，资源补足失败
7. 账号余额不足，资源补足失败。
1. 手动扩容库存充足资源，用于补充缺少需求资源
2. 手动扩容库存充足资源，用于补充缺少需求资源
3. 弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数。
4. 弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数。
5. 更换同 vpc 下的其他子网。
6. 可尝试更换充足的资源规格或 提交工单 联系内部研发人员。
7. 进行账户余额充值，保证账号余额充足。
-
一般
是
是
?
JVM OLD 区异常
JVM OLD 区异常
人工排查
1. old 区连续5分钟 80%或者
2. JVM 内存使用率达到90%
严重
是
是
?
服务角色健康状态超时
服务角色健康状态超时，持续时间t秒(180=t<=604800)
服务角色健康状态连续分钟级超时。
处理方式：查看对应服务角色日志信息，根据日志处理。
t=300
一般
是
否
?
服务角色健康状态异常
服务角色健康状态异常，持续时间t秒(180=t<=604800)
服务角色健康状态连续分钟级不可用。
处理方式：查看对应服务角色日志信息，根据日志处理。
t=300
严重
是
是
?
自动伸缩策略过期
自动伸缩策略过期
人工排查
/
一般
否
是
?
节点角色进程重启
节点角色进程重启
人工排查
/
一般
否
是
?
引导脚本执行失败
引导脚本执行失败
人工排查
/
一般
否
是
?
进程被OOMKiller kill
进程被 OOMKiller kill
1. 检查系统资源使用情况使用 top 或 htop 命令查看系统的 CPU、内存和磁盘使用情况。确认是否存在内存泄漏或者资源竞争的问题。
2. 分析 Java 堆内存使用情况，调整 JVM 参数。
3. 增加节点内存。
/
严重
是
?
?