爱游戏体育-鼎茂科技助力银行客户,应对含400+微服务的核心系统运维挑战
- 分类: 博鱼新闻
- 作者:博鱼
- 来源:集团新闻
- 发布时间:2024-07-24
- 访问量: 0
【概要描述】
案例利用解决方案>AIOps for IT - 鼎茂周全散布式新焦点系统智能运维解决方案
鼎茂周全散布式新焦点系统智能运维解决方案,旨在帮忙各类范围的金融机构客户,在焦点金融系统向周全散布式架构转型的进程中,快速应对手艺转变带来的运维挑战。
方案深度连系了鼎茂的云原生、年夜数据处置、指标系统、AI阐发、散布式全链路追踪、智能监控和告警,和根因阐发等手艺,帮忙金融客户快速进级智能运维系统,在无需增添人力和技术本钱的同时,实现“及时发现异常,快速定界问题,辅助决议计划措置”,周全保障焦点系统的运维SLA。
今朝该解决方案已在多家采纳散布式新焦点系统的银行客户情况中落地。本文的客户故事为某城市贸易银行的实践案例,该行在焦点系统进级后,微办事和黄金指标数目均有百倍级此外增量,鼎茂解决方案有用帮忙客户实现了运维系统的进级,为金融机构客户构建面向新焦点系统的运维系统供给了有用的价值参考。
案例布景>
跟着移动互联网和年夜数据时期的到来,各类金融营业快速增加,传统集中式焦点系统的处置模式已不克不及知足多样化的计较需求。金融机构最先加快手艺进级,鞭策焦点系统向可以或许快速扩缩容量和机能的周全散布式架构演进。
在此布景下,案例客户银行作为数字化成长较早的一批金融机构,已完成了从集中式向散布式架构转型的焦点系统进级。跟着转型后系统复杂度的增添,客户亟需一套完全且专业的智能运维系统,可适配散布式焦点利用系统架构,保障新焦点系统的不变运行。
01
需求阐发
01.1 面对的问题
该行转型后的新焦点营业系统由400余个微办事,上千个容器实例,500余个办事器节点,连系散布式数据库构建而成。比拟传统架构,仅营业黄金指标就翻了400倍,整体运维数据体量日增跨越10TB。
·微办事数目激增,黄金指标翻了400倍
基在同一法则的传统监控不再合用
需要为每个微办事和指标进行量身定制的监控法则
在案例客户场景中微办事到达400多个,比拟传统架构,仅营业黄金指标就翻了400倍。同时,因为各个微办事营业行动的多样性,基在同一法则的传统监控不再合用,监控法则需要为每个微办事和指标进行量身定制,且依靠加年夜资本投入也不克不及完全解决该问题。
·微办事、容器、链路等新运维对象插手,使得告警风暴更容易产生
原本的告警事务运维模式不再合用
需要对年夜量的并发主要告警进行联系关系和收敛
因为微办事架构引入了包罗微办事、容器、链路在内的新的运维对象类型,这使得故障场景的告警风暴更轻易产生。在面临海量原始告警事务的告警风暴场景下,多发地主要告警常常缺少联系关系性,使得原本的告警事务运维模式不再合用。
·多办事间共用IT中心件,故障难以快速定位
传统利用架构的故障阐发方式不再合用
需要综合阐发事务、对象和数据之间复杂关系和影响
新焦点系统采取微办事架构,买卖由办事与办事间的挪用构建而成。因为多个办事共用IT中心件,常常碰到因为中心件故障而致使多个办事同时产生异常的环境。与传统利用架构中各营业自力利用中心件比拟,在新焦点的散布式情况里,缺少阐发问题的显著冲破口,根因定位的难度和复杂度加重。
01.2项目扶植方针
鉴在以上的各类挑战,客户但愿可以或许扶植一套完全且专业的、适配散布式焦点利用系统架构的智能运维系统,实现以下需求:
·微办事全链路追踪阐发
及时动态捕捉微办事间挪用拓扑,并对微办事故障报错进行溯源,解决故障阐发滞缓,营业影响扩年夜的问题。
·营业指标、IT组件根本指标智能监控
成立智能化的、自顺应的异常监控策略,解决没法做到海量指标监控全笼盖的痛点。
·告警折叠与告警联系关系收敛
有用下降告警风暴期告警的数目,并对若干主要告警构成联系关系,以告警故障场景维度进行同一阐发。
·智能故障阐发定位
当散布式新焦点营业系统产生故障发生告警风暴后,快速定位故障可能的缘由,缩小排查规模,并给出异常对象的措置建议。
02
解决方案和思绪
02.1扶植思绪
该扶植方案基在鼎茂ARCANA数智底座,连系ARC-IMC(对象指标中间)、ARC-ADP(数据治理平台)、Di-Logger(日记阐发平台)、Di-Monitor(智能监控中间)、Di-Alert(智能告警中间)、Di-RCA(根因阐发中间)等手艺和场景能力,构建了一套面向散布式新焦点系统的智能运维平台,具有散布式全链路跟踪、智能监控、智能告警收敛和故障定位阐发能力,并为客户供给同一的治理门户。
02.2方案实行
Step1 摆设云原生数智底座ARCANA(含ARC-ADP、ARC-IMC)
-采取被动领受+自动轮询,连系容器Agent手艺,实现400+微办事系统运维数据的及时流式收集;
-连系ARC-IMC对象指标中间,成立了对象指标系统,笼盖从买卖-营业-办事-根本组件-根本举措措施全域运维对象指标;
-以对象指标系统为焦点,完成“指标数据治理、链路日记数据解析、告警数据尺度化”等数据处置。
Step2 搭载智能监控功能模块(Di-Monitor、Di-Logger)
-经由过程Di-Monitor链路追踪模块,即时收集挪用链数据,并计较散布式焦点营业系统的动态挪用拓扑。连系机械进修算法,对换用特点和微办事之间的挪用指标进行异常检测,生成营业买卖层面的告警异常信息;
-经由过程Di-Monitor IT组件监控模块,连系基在动态基线的异常检测和多维告警法则组合设置装备摆设能力,实现IT组件指标监控和异常告警;
-操纵Di-Logger的日记阐发能力对日记实行异常检测,并实现日记爱游戏的智能监控。
Step3 搭载智能告警功能模块(Di-Alert)
-由Di-Alert承接告警同一、告警紧缩、告警联系关系收敛的首要能力。对海量告警进行联系关系收敛,以告警摘要的情势对联系关系告警进行通知和播报。
Step4 搭载根因阐发功能模块(Di-RCA)
-编排(指标多维下钻、挪用链溯源阐发、对象影响关系定位、指标时空因果关系揣度、外部联系关系阐发等)根因定位阐发原子算法,强化根因阐发能力;
-按照阐发、定位故障对象,界定故障影响规模,构成根因陈述能力。
03
项目功效
03.1 解决了 年夜范围散布式系统的数据治理 挑战
客户焦点系统转为散布式架构后,利用层监控依靠微办事挪用链,且资产持久处在动态转变中,难以将运维对象和监控指标高效地连系并治理。
鼎茂解决方案在获得例如CPU负载、内存利用量等手艺指标的同时,在买卖流中嵌入标签,记实买卖在分歧利用和系统中履行、挪用、跳转等操作的时空信息,完全描画法式运行路径。同时依托运维对象指标中间对数据进行治理,构建了分歧利用办事之间、同利用分歧层级间和利用与指标间的数据模子。确保系统节点的漂移不会对数据收集、阐发造成影响。
03.2解决了 海量动态运维对象的邃密化监控 挑战
客户之前监控手段首要为基在指标的固定阈值告警,难以经由过程人工设置的体例邃密地治理散布式架构下的每一个运维对象,致使平常年夜量虚警误报的发生。
鼎茂解决方案可以或许对指标、挪用链和日记进行一体化智能监控,并能主动阐发运维对象特点,基在对汗青数据的进修而生成的动态基线进行异常发现。相较在传统的固定阈值监控,可以或许在联机/批量营业岑岭期,利用更公道的动态阈值进行监控,避免告警误报。同时也可以或许灵敏的捕获到在营业岑岭窗口,各项指标没有如期冲高所意味的潜伏风险。在此根本上,方案供给阈值类、持续类和异常次数类告警法则设置,避免单个异常点酿成的毛刺告警。
03.3 解决了 散布式对象多层级告警噪音干扰 挑战
客户焦点系统原始告警峰值可达5000条每秒。这此中,反复告警和联系关系问题告警的冗余带来年夜量噪音,使运维团队为告警响应措置等工作投入年夜量额外资本。
鼎茂解决方案利用AI算法能力,提取告警事务语义向量序列,进行告警折叠紧缩。而且按照链路挪用拓扑,CMDB数据治理所得来的对象层级关系,对海量告警进行联系关系收敛,并对紧缩后的单源告警进行层级关系聚合,推送单层与多层级聚合的告警摘要,和影响层级、根因层级等辅助故障排查的主要信息,晋升运维效力。
03.4 解决了 多组件、多节点和大都据影响的故障阐发 挑战
散布式系统的故障定位凡是需要运维团队熟习全栈手艺,此前客户需要借助多个监控东西,阐发进程复杂,耗时较长。
鼎茂解决方案撑持由告警主动触发故障根因阐发,并生成RCA陈述。方案采取鼎茂自研算法,连系范畴常识进行故障的主动化溯源阐发,全部阐发进程贯串了监控指标、挪用链和日记数据,并连系了CMDB、事务工单和变动记实等信息。
在一次因为中心件节点重启致使的买卖掉败故障中,起首采取全景链路阐发肯定了产生故障的利用办事节点,同时连系多维下钻阐发来判定受影响的买卖要求规模。在揣度出全量要求将会遭到影响后,进一步阐发相干根本监控指标,并利用时空联系关系关系阐发,定位根因指标,并附以相干节点的日记信息辅助排障。
04
客户收益
鼎茂科技帮忙该客户实现了快速应对散布式新焦点系统的运维挑战:
经由过程散布式新焦点营业系统智能运维平台的扶植,完成了从同一监控、智能告警、根因定位的闭环阐发系统。整体提高了新焦点营业系统智能运维系统问题发现和问题定位的时效性。解决了散布式新焦点营业系统带来的运维本钱晋升的痛点,而且包管了散布式新焦点营业系统对外持续办事的运维程度品级。
·实现了近百万级指标的及时监控和异常检测能力。
·在告警风暴场景下实现了约85%的告警紧缩收敛能力。
·构成根因定位的能力,有用地缩小了故障本源的阐发规模。
责任编纂:刘明德
爱游戏体育-鼎茂科技助力银行客户,应对含400+微服务的核心系统运维挑战
【概要描述】
案例利用解决方案>AIOps for IT - 鼎茂周全散布式新焦点系统智能运维解决方案
鼎茂周全散布式新焦点系统智能运维解决方案,旨在帮忙各类范围的金融机构客户,在焦点金融系统向周全散布式架构转型的进程中,快速应对手艺转变带来的运维挑战。
方案深度连系了鼎茂的云原生、年夜数据处置、指标系统、AI阐发、散布式全链路追踪、智能监控和告警,和根因阐发等手艺,帮忙金融客户快速进级智能运维系统,在无需增添人力和技术本钱的同时,实现“及时发现异常,快速定界问题,辅助决议计划措置”,周全保障焦点系统的运维SLA。
今朝该解决方案已在多家采纳散布式新焦点系统的银行客户情况中落地。本文的客户故事为某城市贸易银行的实践案例,该行在焦点系统进级后,微办事和黄金指标数目均有百倍级此外增量,鼎茂解决方案有用帮忙客户实现了运维系统的进级,为金融机构客户构建面向新焦点系统的运维系统供给了有用的价值参考。
案例布景>
跟着移动互联网和年夜数据时期的到来,各类金融营业快速增加,传统集中式焦点系统的处置模式已不克不及知足多样化的计较需求。金融机构最先加快手艺进级,鞭策焦点系统向可以或许快速扩缩容量和机能的周全散布式架构演进。
在此布景下,案例客户银行作为数字化成长较早的一批金融机构,已完成了从集中式向散布式架构转型的焦点系统进级。跟着转型后系统复杂度的增添,客户亟需一套完全且专业的智能运维系统,可适配散布式焦点利用系统架构,保障新焦点系统的不变运行。
01
需求阐发
01.1 面对的问题
该行转型后的新焦点营业系统由400余个微办事,上千个容器实例,500余个办事器节点,连系散布式数据库构建而成。比拟传统架构,仅营业黄金指标就翻了400倍,整体运维数据体量日增跨越10TB。
·微办事数目激增,黄金指标翻了400倍
基在同一法则的传统监控不再合用
需要为每个微办事和指标进行量身定制的监控法则
在案例客户场景中微办事到达400多个,比拟传统架构,仅营业黄金指标就翻了400倍。同时,因为各个微办事营业行动的多样性,基在同一法则的传统监控不再合用,监控法则需要为每个微办事和指标进行量身定制,且依靠加年夜资本投入也不克不及完全解决该问题。
·微办事、容器、链路等新运维对象插手,使得告警风暴更容易产生
原本的告警事务运维模式不再合用
需要对年夜量的并发主要告警进行联系关系和收敛
因为微办事架构引入了包罗微办事、容器、链路在内的新的运维对象类型,这使得故障场景的告警风暴更轻易产生。在面临海量原始告警事务的告警风暴场景下,多发地主要告警常常缺少联系关系性,使得原本的告警事务运维模式不再合用。
·多办事间共用IT中心件,故障难以快速定位
传统利用架构的故障阐发方式不再合用
需要综合阐发事务、对象和数据之间复杂关系和影响
新焦点系统采取微办事架构,买卖由办事与办事间的挪用构建而成。因为多个办事共用IT中心件,常常碰到因为中心件故障而致使多个办事同时产生异常的环境。与传统利用架构中各营业自力利用中心件比拟,在新焦点的散布式情况里,缺少阐发问题的显著冲破口,根因定位的难度和复杂度加重。
01.2项目扶植方针
鉴在以上的各类挑战,客户但愿可以或许扶植一套完全且专业的、适配散布式焦点利用系统架构的智能运维系统,实现以下需求:
·微办事全链路追踪阐发
及时动态捕捉微办事间挪用拓扑,并对微办事故障报错进行溯源,解决故障阐发滞缓,营业影响扩年夜的问题。
·营业指标、IT组件根本指标智能监控
成立智能化的、自顺应的异常监控策略,解决没法做到海量指标监控全笼盖的痛点。
·告警折叠与告警联系关系收敛
有用下降告警风暴期告警的数目,并对若干主要告警构成联系关系,以告警故障场景维度进行同一阐发。
·智能故障阐发定位
当散布式新焦点营业系统产生故障发生告警风暴后,快速定位故障可能的缘由,缩小排查规模,并给出异常对象的措置建议。
02
解决方案和思绪
02.1扶植思绪
该扶植方案基在鼎茂ARCANA数智底座,连系ARC-IMC(对象指标中间)、ARC-ADP(数据治理平台)、Di-Logger(日记阐发平台)、Di-Monitor(智能监控中间)、Di-Alert(智能告警中间)、Di-RCA(根因阐发中间)等手艺和场景能力,构建了一套面向散布式新焦点系统的智能运维平台,具有散布式全链路跟踪、智能监控、智能告警收敛和故障定位阐发能力,并为客户供给同一的治理门户。
02.2方案实行
Step1 摆设云原生数智底座ARCANA(含ARC-ADP、ARC-IMC)
-采取被动领受+自动轮询,连系容器Agent手艺,实现400+微办事系统运维数据的及时流式收集;
-连系ARC-IMC对象指标中间,成立了对象指标系统,笼盖从买卖-营业-办事-根本组件-根本举措措施全域运维对象指标;
-以对象指标系统为焦点,完成“指标数据治理、链路日记数据解析、告警数据尺度化”等数据处置。
Step2 搭载智能监控功能模块(Di-Monitor、Di-Logger)
-经由过程Di-Monitor链路追踪模块,即时收集挪用链数据,并计较散布式焦点营业系统的动态挪用拓扑。连系机械进修算法,对换用特点和微办事之间的挪用指标进行异常检测,生成营业买卖层面的告警异常信息;
-经由过程Di-Monitor IT组件监控模块,连系基在动态基线的异常检测和多维告警法则组合设置装备摆设能力,实现IT组件指标监控和异常告警;
-操纵Di-Logger的日记阐发能力对日记实行异常检测,并实现日记爱游戏的智能监控。
Step3 搭载智能告警功能模块(Di-Alert)
-由Di-Alert承接告警同一、告警紧缩、告警联系关系收敛的首要能力。对海量告警进行联系关系收敛,以告警摘要的情势对联系关系告警进行通知和播报。
Step4 搭载根因阐发功能模块(Di-RCA)
-编排(指标多维下钻、挪用链溯源阐发、对象影响关系定位、指标时空因果关系揣度、外部联系关系阐发等)根因定位阐发原子算法,强化根因阐发能力;
-按照阐发、定位故障对象,界定故障影响规模,构成根因陈述能力。
03
项目功效
03.1 解决了 年夜范围散布式系统的数据治理 挑战
客户焦点系统转为散布式架构后,利用层监控依靠微办事挪用链,且资产持久处在动态转变中,难以将运维对象和监控指标高效地连系并治理。
鼎茂解决方案在获得例如CPU负载、内存利用量等手艺指标的同时,在买卖流中嵌入标签,记实买卖在分歧利用和系统中履行、挪用、跳转等操作的时空信息,完全描画法式运行路径。同时依托运维对象指标中间对数据进行治理,构建了分歧利用办事之间、同利用分歧层级间和利用与指标间的数据模子。确保系统节点的漂移不会对数据收集、阐发造成影响。
03.2解决了 海量动态运维对象的邃密化监控 挑战
客户之前监控手段首要为基在指标的固定阈值告警,难以经由过程人工设置的体例邃密地治理散布式架构下的每一个运维对象,致使平常年夜量虚警误报的发生。
鼎茂解决方案可以或许对指标、挪用链和日记进行一体化智能监控,并能主动阐发运维对象特点,基在对汗青数据的进修而生成的动态基线进行异常发现。相较在传统的固定阈值监控,可以或许在联机/批量营业岑岭期,利用更公道的动态阈值进行监控,避免告警误报。同时也可以或许灵敏的捕获到在营业岑岭窗口,各项指标没有如期冲高所意味的潜伏风险。在此根本上,方案供给阈值类、持续类和异常次数类告警法则设置,避免单个异常点酿成的毛刺告警。
03.3 解决了 散布式对象多层级告警噪音干扰 挑战
客户焦点系统原始告警峰值可达5000条每秒。这此中,反复告警和联系关系问题告警的冗余带来年夜量噪音,使运维团队为告警响应措置等工作投入年夜量额外资本。
鼎茂解决方案利用AI算法能力,提取告警事务语义向量序列,进行告警折叠紧缩。而且按照链路挪用拓扑,CMDB数据治理所得来的对象层级关系,对海量告警进行联系关系收敛,并对紧缩后的单源告警进行层级关系聚合,推送单层与多层级聚合的告警摘要,和影响层级、根因层级等辅助故障排查的主要信息,晋升运维效力。
03.4 解决了 多组件、多节点和大都据影响的故障阐发 挑战
散布式系统的故障定位凡是需要运维团队熟习全栈手艺,此前客户需要借助多个监控东西,阐发进程复杂,耗时较长。
鼎茂解决方案撑持由告警主动触发故障根因阐发,并生成RCA陈述。方案采取鼎茂自研算法,连系范畴常识进行故障的主动化溯源阐发,全部阐发进程贯串了监控指标、挪用链和日记数据,并连系了CMDB、事务工单和变动记实等信息。
在一次因为中心件节点重启致使的买卖掉败故障中,起首采取全景链路阐发肯定了产生故障的利用办事节点,同时连系多维下钻阐发来判定受影响的买卖要求规模。在揣度出全量要求将会遭到影响后,进一步阐发相干根本监控指标,并利用时空联系关系关系阐发,定位根因指标,并附以相干节点的日记信息辅助排障。
04
客户收益
鼎茂科技帮忙该客户实现了快速应对散布式新焦点系统的运维挑战:
经由过程散布式新焦点营业系统智能运维平台的扶植,完成了从同一监控、智能告警、根因定位的闭环阐发系统。整体提高了新焦点营业系统智能运维系统问题发现和问题定位的时效性。解决了散布式新焦点营业系统带来的运维本钱晋升的痛点,而且包管了散布式新焦点营业系统对外持续办事的运维程度品级。
·实现了近百万级指标的及时监控和异常检测能力。
·在告警风暴场景下实现了约85%的告警紧缩收敛能力。
·构成根因定位的能力,有用地缩小了故障本源的阐发规模。
责任编纂:刘明德- 分类: 博鱼新闻
- 作者:博鱼
- 来源:集团新闻
- 发布时间:2024-07-24
- 访问量: 0
案例利用解决方案>AIOps for IT - 鼎茂周全散布式新焦点系统智能运维解决方案
鼎茂周全散布式新焦点系统智能运维解决方案,旨在帮忙各类范围的金融机构客户,在焦点金融系统向周全散布式架构转型的进程中,快速应对手艺转变带来的运维挑战。
方案深度连系了鼎茂的云原生、年夜数据处置、指标系统、AI阐发、散布式全链路追踪、智能监控和告警,和根因阐发等手艺,帮忙金融客户快速进级智能运维系统,在无需增添人力和技术本钱的同时,实现“及时发现异常,快速定界问题,辅助决议计划措置”,周全保障焦点系统的运维SLA。
今朝该解决方案已在多家采纳散布式新焦点系统的银行客户情况中落地。本文的客户故事为某城市贸易银行的实践案例,该行在焦点系统进级后,微办事和黄金指标数目均有百倍级此外增量,鼎茂解决方案有用帮忙客户实现了运维系统的进级,为金融机构客户构建面向新焦点系统的运维系统供给了有用的价值参考。
案例布景>
跟着移动互联网和年夜数据时期的到来,各类金融营业快速增加,传统集中式焦点系统的处置模式已不克不及知足多样化的计较需求。金融机构最先加快手艺进级,鞭策焦点系统向可以或许快速扩缩容量和机能的周全散布式架构演进。
在此布景下,案例客户银行作为数字化成长较早的一批金融机构,已完成了从集中式向散布式架构转型的焦点系统进级。跟着转型后系统复杂度的增添,客户亟需一套完全且专业的智能运维系统,可适配散布式焦点利用系统架构,保障新焦点系统的不变运行。
01
需求阐发
01.1 面对的问题
该行转型后的新焦点营业系统由400余个微办事,上千个容器实例,500余个办事器节点,连系散布式数据库构建而成。比拟传统架构,仅营业黄金指标就翻了400倍,整体运维数据体量日增跨越10TB。
·微办事数目激增,黄金指标翻了400倍
基在同一法则的传统监控不再合用
需要为每个微办事和指标进行量身定制的监控法则
在案例客户场景中微办事到达400多个,比拟传统架构,仅营业黄金指标就翻了400倍。同时,因为各个微办事营业行动的多样性,基在同一法则的传统监控不再合用,监控法则需要为每个微办事和指标进行量身定制,且依靠加年夜资本投入也不克不及完全解决该问题。
·微办事、容器、链路等新运维对象插手,使得告警风暴更容易产生
原本的告警事务运维模式不再合用
需要对年夜量的并发主要告警进行联系关系和收敛
因为微办事架构引入了包罗微办事、容器、链路在内的新的运维对象类型,这使得故障场景的告警风暴更轻易产生。在面临海量原始告警事务的告警风暴场景下,多发地主要告警常常缺少联系关系性,使得原本的告警事务运维模式不再合用。
·多办事间共用IT中心件,故障难以快速定位
传统利用架构的故障阐发方式不再合用
需要综合阐发事务、对象和数据之间复杂关系和影响
新焦点系统采取微办事架构,买卖由办事与办事间的挪用构建而成。因为多个办事共用IT中心件,常常碰到因为中心件故障而致使多个办事同时产生异常的环境。与传统利用架构中各营业自力利用中心件比拟,在新焦点的散布式情况里,缺少阐发问题的显著冲破口,根因定位的难度和复杂度加重。
01.2项目扶植方针
鉴在以上的各类挑战,客户但愿可以或许扶植一套完全且专业的、适配散布式焦点利用系统架构的智能运维系统,实现以下需求:
·微办事全链路追踪阐发
及时动态捕捉微办事间挪用拓扑,并对微办事故障报错进行溯源,解决故障阐发滞缓,营业影响扩年夜的问题。
·营业指标、IT组件根本指标智能监控
成立智能化的、自顺应的异常监控策略,解决没法做到海量指标监控全笼盖的痛点。
·告警折叠与告警联系关系收敛
有用下降告警风暴期告警的数目,并对若干主要告警构成联系关系,以告警故障场景维度进行同一阐发。
·智能故障阐发定位
当散布式新焦点营业系统产生故障发生告警风暴后,快速定位故障可能的缘由,缩小排查规模,并给出异常对象的措置建议。
02
解决方案和思绪
02.1扶植思绪
该扶植方案基在鼎茂ARCANA数智底座,连系ARC-IMC(对象指标中间)、ARC-ADP(数据治理平台)、Di-Logger(日记阐发平台)、Di-Monitor(智能监控中间)、Di-Alert(智能告警中间)、Di-RCA(根因阐发中间)等手艺和场景能力,构建了一套面向散布式新焦点系统的智能运维平台,具有散布式全链路跟踪、智能监控、智能告警收敛和故障定位阐发能力,并为客户供给同一的治理门户。
02.2方案实行
Step1 摆设云原生数智底座ARCANA(含ARC-ADP、ARC-IMC)
-采取被动领受+自动轮询,连系容器Agent手艺,实现400+微办事系统运维数据的及时流式收集;
-连系ARC-IMC对象指标中间,成立了对象指标系统,笼盖从买卖-营业-办事-根本组件-根本举措措施全域运维对象指标;
-以对象指标系统为焦点,完成“指标数据治理、链路日记数据解析、告警数据尺度化”等数据处置。
Step2 搭载智能监控功能模块(Di-Monitor、Di-Logger)
-经由过程Di-Monitor链路追踪模块,即时收集挪用链数据,并计较散布式焦点营业系统的动态挪用拓扑。连系机械进修算法,对换用特点和微办事之间的挪用指标进行异常检测,生成营业买卖层面的告警异常信息;
-经由过程Di-Monitor IT组件监控模块,连系基在动态基线的异常检测和多维告警法则组合设置装备摆设能力,实现IT组件指标监控和异常告警;
-操纵Di-Logger的日记阐发能力对日记实行异常检测,并实现日记爱游戏的智能监控。
Step3 搭载智能告警功能模块(Di-Alert)
-由Di-Alert承接告警同一、告警紧缩、告警联系关系收敛的首要能力。对海量告警进行联系关系收敛,以告警摘要的情势对联系关系告警进行通知和播报。
Step4 搭载根因阐发功能模块(Di-RCA)
-编排(指标多维下钻、挪用链溯源阐发、对象影响关系定位、指标时空因果关系揣度、外部联系关系阐发等)根因定位阐发原子算法,强化根因阐发能力;
-按照阐发、定位故障对象,界定故障影响规模,构成根因陈述能力。
03
项目功效
03.1 解决了 年夜范围散布式系统的数据治理 挑战
客户焦点系统转为散布式架构后,利用层监控依靠微办事挪用链,且资产持久处在动态转变中,难以将运维对象和监控指标高效地连系并治理。
鼎茂解决方案在获得例如CPU负载、内存利用量等手艺指标的同时,在买卖流中嵌入标签,记实买卖在分歧利用和系统中履行、挪用、跳转等操作的时空信息,完全描画法式运行路径。同时依托运维对象指标中间对数据进行治理,构建了分歧利用办事之间、同利用分歧层级间和利用与指标间的数据模子。确保系统节点的漂移不会对数据收集、阐发造成影响。
03.2解决了 海量动态运维对象的邃密化监控 挑战
客户之前监控手段首要为基在指标的固定阈值告警,难以经由过程人工设置的体例邃密地治理散布式架构下的每一个运维对象,致使平常年夜量虚警误报的发生。
鼎茂解决方案可以或许对指标、挪用链和日记进行一体化智能监控,并能主动阐发运维对象特点,基在对汗青数据的进修而生成的动态基线进行异常发现。相较在传统的固定阈值监控,可以或许在联机/批量营业岑岭期,利用更公道的动态阈值进行监控,避免告警误报。同时也可以或许灵敏的捕获到在营业岑岭窗口,各项指标没有如期冲高所意味的潜伏风险。在此根本上,方案供给阈值类、持续类和异常次数类告警法则设置,避免单个异常点酿成的毛刺告警。
03.3 解决了 散布式对象多层级告警噪音干扰 挑战
客户焦点系统原始告警峰值可达5000条每秒。这此中,反复告警和联系关系问题告警的冗余带来年夜量噪音,使运维团队为告警响应措置等工作投入年夜量额外资本。
鼎茂解决方案利用AI算法能力,提取告警事务语义向量序列,进行告警折叠紧缩。而且按照链路挪用拓扑,CMDB数据治理所得来的对象层级关系,对海量告警进行联系关系收敛,并对紧缩后的单源告警进行层级关系聚合,推送单层与多层级聚合的告警摘要,和影响层级、根因层级等辅助故障排查的主要信息,晋升运维效力。
03.4 解决了 多组件、多节点和大都据影响的故障阐发 挑战
散布式系统的故障定位凡是需要运维团队熟习全栈手艺,此前客户需要借助多个监控东西,阐发进程复杂,耗时较长。
鼎茂解决方案撑持由告警主动触发故障根因阐发,并生成RCA陈述。方案采取鼎茂自研算法,连系范畴常识进行故障的主动化溯源阐发,全部阐发进程贯串了监控指标、挪用链和日记数据,并连系了CMDB、事务工单和变动记实等信息。
在一次因为中心件节点重启致使的买卖掉败故障中,起首采取全景链路阐发肯定了产生故障的利用办事节点,同时连系多维下钻阐发来判定受影响的买卖要求规模。在揣度出全量要求将会遭到影响后,进一步阐发相干根本监控指标,并利用时空联系关系关系阐发,定位根因指标,并附以相干节点的日记信息辅助排障。
04
客户收益
鼎茂科技帮忙该客户实现了快速应对散布式新焦点系统的运维挑战:
经由过程散布式新焦点营业系统智能运维平台的扶植,完成了从同一监控、智能告警、根因定位的闭环阐发系统。整体提高了新焦点营业系统智能运维系统问题发现和问题定位的时效性。解决了散布式新焦点营业系统带来的运维本钱晋升的痛点,而且包管了散布式新焦点营业系统对外持续办事的运维程度品级。
·实现了近百万级指标的及时监控和异常检测能力。
·在告警风暴场景下实现了约85%的告警紧缩收敛能力。
·构成根因定位的能力,有用地缩小了故障本源的阐发规模。
责任编纂:刘明德- COVID-19 Solutions
- 售后服务
- 咨询电话 025-58601060
- 返回顶部