在前面的几篇文章中,介绍了全链路压测的背景、在企业中的立项流程以及落地的一些技术方案。
在开始真正的介绍落地实践过程以及相关案例之前,我想和大家聊聊,我对全链路压测的一些认知,即:全链路压测在技术团队中的定位,以及它的价值是什么。
在聊这个topic之前,先回想下我在第一篇文章中阐述的一个观点:全链路压测创造了什么价值?我当时的观点:
技术角度:降低成本、提升系统SLA、技术练兵&团队协作&快速响应;
业务角度:提升用户体验、更快的发现和验证目标、更好的达成业务运营目标;
现在我要表述的观点依然不变,从更高的维度来说,技术和业务的关系可以用下面一句话概括:
技术是为业务达成目标提供支撑和效率工具,业务目标更好的达成会对技术有更高的要求!
业务本身的特性主要有如下几点:
1.精细化运营(需要准确的数据);
2.成本和效率(更低的成本和更高的收益);
3.更好的服务用户(需要快速高效的解决用户的痛点问题);
4.新的业务可以快速落地验证(需要高效的技术响应和技术支撑);
而上述几点业务的特性,都对技术提出了很多的要求!
从上图可以看出,常见的业务运营流程中,每个阶段每个环节都对技术部门提出了挑战:
1.从需求提出到发布:研发成本、研发效率、交付质量;
2.从下单到订单履约:提高业务成交履约率(撮合交易/成单匹配/留存转化);
3.业务活动的营销推广:活动搭建、抽奖&优惠券&营销短信等方面的快速响应;
4.线上故障的快速发现解决:监控告警、问题定位、风险评估、线上服务的SLA;
前面简略的聊了技术对业务运营的重要支撑性作用,这里我们来看看常见的业务场景,具备的几种特性:
1.业务可视:业务的可视,简单理解就是业务的状态,处在什么阶段,目前的效果可以直观的以可视化的状态来呈现。
常见的场景就是业务监控大盘(想想监控大盘需要技术做什么?数据采集/数据存储/数据展示)
2.业务可管:最常见的就是一些促销活动的配置,比如:
活动时间、涉及的商品/优惠券、用户类型以及标签体系(这里又需要技术做什么呢?活动会场搭建工具/优惠信息缓存/活动消息推送)
3.业务可控:业务可控也可以通过字面意思理解,即:各个业务维度的运行监控/业务配置发布回滚以及防资损;
4.业务可优:这一点,我们现在最常见的有电商的千人千面,短视频的智能推荐、针对不同等级会员的优惠营销体系等;
上面讲了这么多业务的特性以及技术对业务运营支撑的重要性,这些内容可以用下面这张图概括:
1年 = 365天 = 8760小时 99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时 99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟 99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟2.故障响应解决耗时 这一点目前业内有个口号是:1-5-15。什么意思呢,就是:一分钟发现问题,5分钟定位问题,15分钟解决问题,线上业务恢复正常运营。 要做到上述的指标需要很强的技术能力以及不断的演练才能达到,主要是如下几点:
发现问题:强大完善灵敏的监控体系; 定位问题:对业务和技术实现的熟悉程度以及高效的定位分析工具; 解决问题:故障的自愈能力以及对异常情况的稳定性预案甚至故障演练;3.故障导致的业务资损 这一点很好理解,即线上故障对业务造成的损失。这一点业内在故障定级评估复盘时,大多采用最近一天/一周同时段的业务营收来做对比。 当然,其中还可能包括用户的客诉以及赔偿的优惠券等维度。
弹性扩缩容能力; 监控告警追踪能力; 限流降级熔断能力; 故障识别响应和技术优化;
这种跨团队的协调配合,往往需要动员很多人力资源,而且特别耗时。
建了一个全链路压测沟通交流群,目前群人数已超过100,想加群的同学请公众号回复关键字:全链路压测。
添加我好友,我邀请进群,加群请备注说明来意。——公众号二维码在我博客主页右上角。