苏宁全场景零售布局,线上线下融合的经营管理模式,意味着在818大促等节点,数据量峰值可能是日常销售的几十倍。而背后大量的数据,就需要强大的计算和存储能力支撑,而有能力支撑这些全场景复杂运算和数据存储需求的,正是云计算。
业务的高速发展,意味着对云资源的持续需求增长,在保证业务连续性的同时如何保证业务对于资源的利用是否高效、对动态峰值需求是否极速响应至关重要。针对818大促产生的数据峰值,苏宁云技术需综合考虑安全性、可控性、资源利用率、资源成本等因素。
每秒数百万次的高并发请求,系统间数百亿次的调用,数十亿的实时消息推送,数千应用服务的精准协同…在这一系列庞大数据的背后,苏宁云技术是如何保证在818期间核心服务不降级、无重大事故的?
提升资源调度效率,818物理机整体使用率提升10%
在私有云领域,提升整合比、降低TOC是必然需要考虑的,具体到,比如数据中心建设需要物尽其用、物美价廉。苏宁云基于该理念出发,在应对资源使用率提升和有效应对业务峰值这对基础矛盾的实践中,推出了基础资源微调度产品。818期间,通过资源争抢组件与兄弟团队的资源池间均衡能力双剑合璧,苏宁云的物理机整体使用率提升了10%, 在保障稳定性的同时获得了较好的经济成本收益。
比如在监控粒度从分钟级别提升到秒级,设计上以分散监控,边缘化计算的理念为指导,为识别毛刺波峰类异常、获取资源画像及训练预测提供数据基础。并且通过对历史数据的分析,建立系统关键服务与guest 在物理核级别归属隔离关系,确保关键服务与guest不会互相干扰。针对资源争抢程度和资源使用程度的判断,通过算法建立资源争抢健康评分和资源使用评分,使判断变得更加简单易行。通过自动化的物理机PCPU级别的微调度,迅速完成资源热点均衡,降低峰峰叠加到来时发生资源争抢的概率;且通过Qos自动调配能够达到对特定虚机进行快速精准的干预,保障大促核心系统的关键资源供给。
保障资源调度稳定性,精准调配数十万虚拟机
818大促带来超过日常几十倍的业务流量,保障大规模服务器资源稳定性是极具挑战的工作之一。苏宁云通过动态资源调度技术为应用系统数十万虚拟机进行精准资源调配,提前规避虚拟化超分场景下业务系统间的资源竞争风险,解决大促全链路压测识别出的虚拟机资源争抢和物理机负载超安全水位问题,确保在零点流量洪峰到来时参与大促活动的业务系统能获得充足的资源服务能力并稳定运行,保障大促活动顺利进行。
动态资源调度技术依赖系统容量规划系统刻画出应用负载画像数据,再结合不同机型物理机虚拟化服务能力,为应用系统进行精准资源匹配,保障关键应用系统资源需求。系统容量规划管理大促活动场景和系统容量,收集和分析大促全链路压测应用性能数据和虚拟机监控数据,对线上核心购物和浏览链路、线下购物主流程、支付主流程、商户端主流程、金融服务、物流、客服、售后等几千个参与大促活动系统绘制应用负载画像,为精细化资源调度提供大促活动场景下的应用负载特征数据。
同时,根据大促活动场景下的应用负载画像数据和全链路压测收集的物理机CPU、内存、网络多维度负荷数据,动态资源调度为大促业务系统重新进行资源匹配,进行二次资源调度和资源调整。业务系统资源需求除了包括静态的资源规格需求,还考虑了CPU算力、内存使用、网络吞吐、磁盘IO等运行时资源消耗需求。只有精准匹配了业务系统的多维度运行时资源需求,才能有效的保障大促活动中应用系统运行稳定,不出现资源竞争,不影响应用系统服务能力和大促活动正常运营。对于大促全链路压测识别出的虚拟机资源争抢和物理机超安全水位问题,通过仿真调度重新匹配资源。如果当前物理机资源充足,根据仿真调度结果锁定资源放置位置,辅助运维人员精确调整资源,如果当前物理机资源余量不足,评估出资源缺口,则补充新的物理机资源。
未来,将会继续深化使用负载画像数据,利用AI算法分析在大促不同活动场景和时间段的资源需求变化特征,实现分时复用资源调度能力,资源调度精度更细致,并与内核资源隔离和保障技术相结合,降低资源竞争风险的同时实现物理机资源利用率提升,资源使用成本降低。
构建全方位安全体系,护航818大促
本次818大促恰逢苏宁30周年,期间设有多个重要促销节点,众多丰富且大力度的促销玩法琳琅满目,在利益驱动下,黑客和灰产在此期间的攻击力度和攻击频次预计也将大幅提升。在访问暴涨、订单激增、渗透力度空前的情况下,如何有效应对各类网络攻击以保障业务系统的安全稳定,无疑是对苏宁安全团队的一次重大考验。
苏宁安全体系提供全面、快速、精准的漏洞扫描、风险管理及专家级安全服务。其中漏洞扫描结合动态爬虫技术,全面深入搜集应用攻击面信息,并采用6W+漏洞检测插件,监测各类主机及应用存在的安全风险。在818大促预热活动前,已完成近千个系统、两千多域名、数十万台主机的安全扫描与修复。使用SDK与KMS进行交互,给数据穿上一层安全外衣,使得数据在收集、传输、处理、交换、存储、销毁的全生命周期中得到保护。此外,苏宁数据库审计系统支持对业务网络中的数据库进行全方位安全审计,提高数据资产安全。
动态的攻防博弈有利于帮助安全团队提升日常威胁检测发现能力、事件分析决策能力和应急处置能力。苏宁通过在真实的网络环境中进行实战攻防演习,攻击方对核心目标进行渗透攻击,防守方对安全事件进行全方位检测,在过载的信息中明确防护方案,并快速做出应急处理。针对网络攻击,结合大数据分析和NLP技术,打造Web攻击智能AI检测引擎,可有效识别变形攻击和0day漏洞。目前,苏宁web攻击模型拦截准确率达98%,召回率达94%;Bot攻击模型拦截准确率达97%,召回率达90%。可支撑百万级QPS请求过滤分析,大促拦截攻击达10亿+次。并通过对海量流量、日志数据进行深入关联分析,并与威胁情报系统在全网采集的信息碰撞比对,结合主机运行状态的实时监控数据,生成攻击者画像,并在攻击行为发生前及时阻断,避免信息资产遭受损失。
面对818期间的巨大数据量和超大流量洪峰,高稳定性、高延展性、高可用性,是苏宁云技术团队交出的优秀答卷,818之后,苏宁云技术团队还将对全量信息数据进行复盘分析,查漏补缺进一步提升和优化,以支撑高速发展的业务需求。