当前位置: 首页 > news >正文

网站后台公告id修改莘县网站建设费用

网站后台公告id修改,莘县网站建设费用,访问网站错误代码为137,wordpress wpjson导读#xff1a;臣闻防患于未然者易#xff0c;除患于已然者难 —— 明马文升《添风宪以抚流民疏》作为一个程序员#xff0c;是否有留意到每逢节假日在各大景区时有程序员打开电脑紧急处理线上问题#xff1f;如果线上出现大量的报警#xff0c;这时我们该如何判断是自身… 导读臣闻防患于未然者易除患于已然者难 —— 明·马文升《添风宪以抚流民疏》作为一个程序员是否有留意到每逢节假日在各大景区时有程序员打开电脑紧急处理线上问题如果线上出现大量的报警这时我们该如何判断是自身服务问题还是依赖服务问题午夜线上重大问题出现如何能够唤醒相关人员快速响应相信这些问题对于很多同学都不陌生监控的重要性不言而喻那如何打造一个完善的监控系统协助程序员发现并高效定位问题本文将介绍百度游戏微服务监控实践基于百度完善的监控基础实施我们打造了较为完善的监控系统下面我们向大家介绍我们的实践历程。全文4583字预计阅读时间 9分钟。背景随着业务的快速发展游戏服务端研发同学平均每人要维护2~3个微服务后续业务场景增多可能会引入更多微服务如何高效的获悉整个微服务系统的运行状态业务异常时如何快速发现问题并解除故障游戏服务端研发同学在监控实践上做了很多工作尝试。初期的监控基于公司的Argus监控日志服务器相关监控、Monitor监控平台业务监控、Sia监控可视化监控等覆盖了一些基础的监控但是由于缺乏体系、缺少和业务的结合整体的效果并不理想不少问题依然是客服和产品同学反馈同时在跟进问题过程中研发最为头疼的一个点是在问题定位上往往要花很长的时间这个对业务造成了一定的负面影响。在这种情况下我们系统化的梳理了面临的问题并体系化的设计和优化完善了监控系统并着重针对问题定位做了和业务的深度结合大大提升了问题的定位效率。下面将就我们监控系统的建设过程整体介绍希望对读者有所帮助。微服务监控初探监控建设初期我们主要是基于百度的监控基础设施添加各种监控但是由于缺乏体系效果并不理想。尽管初探阶段我们监控能力不够完善且能力较弱但这些分散的监控措施也帮助研发同学发现了不少系统问题为后续的体系化和多维度组合监控打下了基础。2.1、日志和服务器监控利用百度Argus监控平台实现对机器状态和业务日志的监控游戏微服务借助机器及日志监控能力对线上服务进行了监控的覆盖。我们初期对Argus监控的应用偏单维化结合业务场景的深度不够诸如某个问题某些实例的监测阈值及多维度报警能力初期并没有考虑设计下面是对于百度Argus监控的能力和流程介绍                        argus整体数据流如下可以支持电话、SMS、短信及百度如流报警                日志相关监控业界有大家熟悉的ELK Stack 方案Elasticseach Logstash Kibana使用Beats可选在每台服务器上安装后作为日志客户端收集器然后通过Logstash进行统一的日志收集、解析、过滤等处理再将数据发送给Elasticsearch中进行存储分析最后使用Kibana来进行数据的展示。2.2、服务轮询监控利用百度monitor监控平台对于核心的接口采用定时轮询检测的机制来辅助监控线上服务质量monitor平台支持可视化配置但是需要针对每个场景做定制化配置随着业务快速的迭代这种监控添加的效率和易用性已不能满足业务的需求。                2.3、服务可视化监控利用公司SIA智能监控系统实现了服务流量、可用性、性能等指标的监控可视化可以辅助业务研发可视化的观察服务线上状态并基于线上异常状态报警。但是业务对于SIA智能监控能力并没有充分使用导致可视化的辅助作用有限智能能力没有体现。图3 监控可视化对于业界的可视化监控工具有诸如Kibana、Grafana等相关的能力都已很完善基本可以满足业务的各种展现需求大家可以参考了解。微服务监控演进如上面所阐述的监控初探阶段的监控措施虽然可以辅助研发发现和定位一些问题但是还是存在诸多问题主要是如下四个方面风险暴露滞后大多报警发生时已造成影响监控缺乏统一规划相关监控项混乱且覆盖极不完整监控能力弱无法提供有效异常信息报警混乱研发被报警信息轰炸从整体监系统建设成本和收益来看我们不会将过去的监控全部推翻而是基于在现有基础监控的能力上加以完善。首先我们以系统化的视角对于监控系统做全面设计然后基于设计强化监控系统各个部分的能力。3.1、监控系统化设计目标有效预防、及时发现、快速止损落地基于系统化的设计目标做了如下的落地思路拆解。                                   实现上从风险控制、智能监控、智能报警、高效定位四个方面来设计微服务系统的监控系统化工作整体流程如下下面从风险控制、智能监控、智能报警和高效定位四个方面逐一介绍。3.1.1风险控制设计线上问题发现的时机越早越好由于研发同学水平客观上存在差异且通过cooder review无法有效规避上线问题的发生所以游戏业务研发在自动化case和发布环节做了较多的工作以减少问题的发生。下面是研发做的主要风险控制项通过这些风险控制项的落地目前已经可以减少95%以上的上线中问题。            3.1.2智能监控设计游戏业务初期的监控是分散的监控添加日志监控使用argus可视化的监控实验SIA智能监控平台监控的覆盖和监控系统之间的协同效果并没有做全局考虑这样就暴露出一些问题如问题1按照监控对象划分的监控是在单一维度上做到有效覆盖但是系统全局波动异常如何探测问题2某个实例因为网络或机器磁盘偶发故障导致pvlost突增如何高效的获得信息问题3系统可用性波动是某个机房的问题还是特定接口的问题或是访问下游的异常1智能异常检测利用SIA系统的智能异常检测算法将耗时、流量、SLA指标、收入等指标纳入到监控体系可以高效探测到系统的周期/非周期波动异常下面简单介绍下主要的算法。                                 通过将上述指标同游戏业务的流量、耗时、收入等指标的结合在系统周期性或非周期性的波动时即使是较为缓慢的下降也可以通过这些周期性检测工具有效检测大大提高异常检测覆盖度。2全场景监控覆盖我们从4个象限覆盖监控做到问题暴露无死角同时针对诸如服务维度的监控还细化了多维度的筛选能力力求从宏观视角便于发现问题的同时也做到在微观世界能够辅助高效定位问题。                                               这里我们着重提下数据监控我们针对游戏业务的特殊化场景细化了需要监控的数据以及场景以确保监控的完整覆盖下面是数据相关的一些监控项。3多维度监控可视化辅助多维度筛选能力服务、接口、错误码、机房、机器实例异常多维度可视化 如pvlost基于接口、机器、机房的分布错误分布可视化分接口、分错误码                          图6 多维度监控可视化3.1.3智能报警设计报警整体做了分级报警设计基于不同的场景设置不同的报警范围和报警方式减少了非重要报警的信息泛滥同时在报警应用上有如下整体设计1智能合并过滤与自动升级智能过滤减少报警信息的过渡泛滥做一定的信息筛选智能报警合并通过信息的合并提升报警的信息简介度进一步减少报警信息泛滥报警自动升级解决了困扰报警触达不了值班人的问题通过设置不同阈值扩大到不同的范围并升级报警的形式从邮件-如流-短信-电话且报警电话可以设置不断的拨打直至有人响应为止解决了触达的问题2样式内容自定义对于普通的实例报警或服务报警相应报警信息按照固定格式进行输出核心逻辑部分添加基于富文本的报警内容定义完整的展示报警信息和报警问题并提供问题的上下文语义大大提高了信息量为定位问题提供了充足有效的信息。图8 报警内容样式自定义3.1.4高效定位能力支持报警暴露信息高效对于关键核心逻辑采用Trace链路机器人方式来实现报警的高效触达和自定义化输出实现信息的高效传递报警信息确认高效部分注意考虑在异常信息报警后为了确认线上的相关完整日志数据和请求当时数据情况的快速数据检索实时trace系统高效的解决了这个问题1核心逻辑机器人Trace链路信息报警暴露信息在核心逻辑已基本达到了分钟级的问题报警 问题的自动定位研发基于报警信息即可以看到对应的问题代码行数及出错原因大大提高了问题的定位效率。当然这个方式的报警目前还存在实现成本较高的问题诸如在游戏业务的充值完成后给用户发道具过程中如果存在一次我们会暴露出请求参数、出错函数及出错的具体原因研究基于这个数据可以直观的明确具体的问题但是这个需要较为定制化的实现有一定接入成本。                                 2实时trace系统接入利用百度trace中台的能力可以做到业务在非侵入式的情况下进行采集接入成本极低。对于时效性方面采用了百度DataHub消息队列并利用Dstream实时建索引使得从数据源到故障定位平台可以基于关键信息的检索时效性在5分钟以内大大的提高研发定位效率。 微服务监控全景图            4.1用户触达通过多维度可视化监控辅助研发基于可视化界面即可快速分析出问题大致原因基于智能报警和业务报表可以满足在时效性和业务详细健康度的全面检测让研发同学全面感知系统的状态4.2监控工具基于公司提供的Argus监控、Sia智能监控和机器人监控辅助工具可以完整的对系统进行全面覆盖对于一些长周期的业务数据诸如应用日活、下载成功率、白屏率等指标数据则提供定制化的监控以覆盖此类场景的监控4.3监控指标对于监控指标大体分位如上一些分类基于这些分类做到监控的有效覆盖4.4监控对象监控对象从服务器、业务日志、服务状态到业务数据、业务核心逻辑和核心场景通过全面的监控对象梳理已做到对于监控的全面掌控。总结展望通过系统化的监控能力建设无论是在时效性、定位效率还是覆盖度等均达到了较为理想的状态研发对于重大的线上问题可以第一时间感知并有完善的辅助定位信息来协助高效定位问题总结整体监控的实践过程主要是有以下几个方面的心得。1系统化设计落地监控系统首先要明确解决的是什么问题达到的是什么目标将问题和目标理解清楚后实现上就以如何充分解决问题并达成目标来思考基于这样一个系统化的分析拆解过程我们从风险控制、智能监控、智能报警、高效定位几个部分入手来实现我们的监控系统以达到预期的目标。2分级的思考方式在监控和报警中应用核心逻辑集中火力无论是监控还是报警我们都以目标集中于重要的功能和核心逻辑如果现有工具无法达到目标那就考虑多个工具组合来满足监控的目标。对于通用的逻辑功能则强调覆盖程度以现有工具完整覆盖。3易于实施和落地公司提供的SIA智能监控、argus监控都有提供聚合的能力对于同质的内容监控做到一步到位。而对于异构或差异化的服务则可以以业务方现有的形式以非侵入能力支持接入大大提高了监控的添加效率。4充分结合公司现有能力创新组合应用提高效率在使用监控基础实施的时候不同的监控工具各有优劣充分利用不同的监控工具的优势达到整体监控效果的最优同时对于诸如一些核心逻辑的监控创新的使用机器人报警trace的内容定制化能力实现对于核心逻辑问题的高效反馈和定位。虽然在监控系统方面的实践已经达到了较为理想的效果但是在系统故障处理、容灾等能力的自动化机制上有待进一步完善建设且对于系统资源的使用并没有做到智能化的利用目前资源的增减仍然有赖于人工的干预。后续的优化目标是在故障自动化处理、资源智能扩缩容上达到全面的自动化以提供系统整体的可维护性和可用性。
http://www.sadfv.cn/news/26822/

相关文章:

  • 建设网站需要注意的事项对于职业规划做的好的网站
  • 网站建设制作解决方案兴文县建设工程网站
  • 爱站网挖掘工具五合一网站制作视频教程?
  • 国外儿童社区网站模板八步网站建设
  • 网站过度优化的表现淘宝客网站是怎么做的
  • 网站后台怎么做水印图片上海注册公司地址费用
  • 网站建设 江苏设计制作建筑模型教案
  • 南昌集团制作网站开发网站建设基础服务报价
  • 资源网站很难做域名网址注册
  • 快速网站开发介绍网站建设中面包屑导航的特点
  • 海口高端品牌网站建设广州专业的网站建设公司哪家好
  • 如何建立p2p网站企业app下载
  • 郧阳网站建设网络推广运营途径
  • 网站开发私活一个app费用多少钱
  • 网站建设优化陕西百度保障中心人工电话
  • 电子商务网站建设考纲温州网站制作企业
  • 吴川市规划建设局网站网店运营心得体会
  • 响应式电影资讯网站工作纪律
  • 长春长春网站建设网黄冈网站推广
  • 100个免费推广网站下载软文营销模板
  • 南昌网站开发制作公司花都商城网站建设
  • 整合资源加强全市网站建设ppt模板免费下载 素材教学
  • 网站设计时应考虑哪些因素百度竞价冷门产品
  • 做网站用的主机东莞网站建设制作公司排名
  • 苏州新区网站制作建设推广告设计专业有什么可从事的工作
  • 网站百科推广怎么做天津宏宇网站建设
  • 律所网站建设管理制度高度重视局门户网站建设
  • 如何查看网站 是哪家做的住房和城乡建设报名网站
  • 望江县建设局网站户县网站建设
  • php网站模板怎么用全国十大软件开发培训机构