有奖捉虫:行业应用 & 管理与支持文档专题 HOT

案例背景

富途是一家领先的数字化金融科技公司,专注于为用户提供覆盖多个市场的全数字化金融服务,继而提升投资体验。随着业务扩展,企业面临复杂性与稳定性挑战,业务上云、分布式架构以及快速迭代更加大了故障发生概率。为了提前发现系统的可用性问题,给客户提供更稳定的服务,富途旗下品牌 moomoo 与腾讯云混沌演练平台联合开展了容灾演练 GameDay 实践。

业务挑战

1. 涉及资源对象类型多,操作复杂
演练涉及多个云产品的故障演练,若采用传统人工运维方式,需协调各产品团队配合实施故障注入,协同沟通成本较高,演练效率低。
2. 涉及大规模实例自动化操作
为模拟可用区故障的真实场景,需一次性完成数百台实例的故障注入和回滚,操作难度较大。
3. 实时监控观测难题
在演练 GameDay 活动中,业务团队需要实时关注多个云产品监控指标情况,以评估故障演练效果,把控风险。在实际演练中,往往存在云产品监控看板不集中、看板界面反复跳转麻烦、监控指标信息不全面等问题,导致演练可观测效率和能力不足。

解决方案

1. 丰富的云上故障场景和灵活编排能力
?腾讯云混沌演练平台 支持用户对腾讯云主机、容器、数据库、专线等20余种对象资源进行故障注入,提供近100种故障模拟场景。用户可在平台上轻松编排故障动作组合,降低团队沟通与运维操作成本,极大提高 GameDay 演练效率。
2. 支持大范围实例并发故障注入和自动回滚
采用混沌演练平台进行多实例并发故障注入,能够真实有效地模拟可用区级别的故障场景,同时系统支持自动化执行故障恢复,减少了人为干预了风险。
3. 完善的监控指标体系
混沌演练平台集成了云监控 在内的各类基础云产品的监控指标体系,用户可集中查看云产品实例级别的监控变化,实时观察故障注入效果,检验告警系统有效性。

客户收益

1. 演练效率提升:借助自动化故障注入和恢复,降低沟通与运维成本,提高 GameDay 演练效率。
2. 真实场景模拟:多实例并发故障注入,有效模拟可用区级别的故障场景,帮助用户更好地应对实际问题。
3. 故障效果监控:集成腾讯云监控指标体系,实时观察故障注入效果,为应对实际风险提供依据。
?
?
?
?
?


http://www.vxiaotou.com