随着信息化的发展,信息化步入了一个崭新的时代,日常业务对信息系统的依赖程度也越来越高。各种业务系统提供高效、便捷服务同时,业务系统的稳定性和持续性问题也越来越突出。
由于构建的信息系统具有设备与资源规模庞大、设备种类庞杂、参与维护的人员众多的特点,单纯依靠传统的人工方式来进行日常巡检和维护管理,将难以保证整个系统的高可用性。
为保证业务系统的安全可靠运行,提高信息系统安全稳定性,一个全天候全方位的综合监控预警平台,能够实现对网络运行及其基础设施环境的可视、可控、可管理,以保证业务系统能够在高效、可靠的运行环境下发挥最大效益。
通过采集信息系统运行数据统一分析,并对各类信息进行过滤、标准化和归并处理,统一形成告警。综合监控平台发生安全告警后,通过对告警的详情追踪、关联分析等辅助方式,管理人员对告警进行分析判断,识别出真正需要关注和处理的告警事件,并通过电话、短信、邮件等方式通知相关负责人或应急响应人员,并提供对应的处置预案,给出处置建议。管理人员对告警事件处置状态进行跟踪,直到事件被处置并关闭,最终实现事件的发现、分析、处置、解决的闭环处理流程。
1.大规模网络监测预警
使用新一代大数据技术和分布式架构设计,实现大规模设备秒级监控,监控范围覆盖硬件层、操作系统层、虚拟化层、公共应用层等IT基础架构设施,同时易于水平扩展,支持大规模采集环境。
2.多种应用性能监控
实现对各种服务器监控管理,包括主机硬件、操作系统、文件系统、进程和应用等。主机监控的重点是对操作系统关键指标,如CPU、内存、进程、文件系统等进行全面的监控管理,要求不仅能够在状态改变或性能指标超越门限值时生成告警,同时还应该提供实时和历史的性能数据展现,并能够保存历史性能数据,以形成统计分析报表。
实现对各种数据库监控管理,包括数据库的重要配置参数以及运行状况的监控。主要关注数据库的关键指标,如使用率、表空间占用情况、锁竞争和使用情况、缓冲区命中率等。
实现对各种应用的监控管理,比如IIS,Tomcat,Weblogic监控,重点保证服务的可用性和性能。
3.降低网络运行维护成本
通过易于使用和维护,统一的中文界面,浏览器管理方式,可以多人同时通过浏览器进行访问和操作。采用的技术成熟、先进,并具有较强的集成性和可扩充性的管理平台。实现解放人力,依靠智能化技术化的管理手段,降低网络运行故障发生率,降低网络运行维护成本,并同时提高维护效率。
4.统一的管理与事件处理
以业务的角度将信息系统的管理整合到基于业务的管理平台上来,不仅完成对设备监控的需求,还能满足根据业务系统的组成定位问题根源,定位性能瓶颈,预测业务发展趋势和稳定性。
通过高效的汇聚引擎,对不同来源、不同类型的各类监控数据进行统一、标准的分析和处理,为管理人员提供集中统一的管理界面。统一的告警平台,将所有告警纳入监控管理平台,并通过短信、邮件统一告警。
5.集中直观的可视化呈现
建立直观、真实的综合展现IT环境中网络、系统等各种IT资源运行情况,有效的展示内部的IT资源运行情况、性能状况、操作情况。
实现IT资源管理和业务系统的关联,可以从业务的视角进行IT管理。当某台主机或者应用发生问题、产生告警时,系统管理员可以在第一时间发现该设备影响了哪个应用的正常运行。统一的报告和报表,支持多种格式导出,柱图、饼图、折线图,定期的运行报告。
1.面向业务与集中监控
通过集中监控模型,实现业务与服务所依赖的机房环境、网络、服务器、数据库、应用等IT资源的关联,面向业务的集中监控实现了以业务为主线的全面和整体监控,不仅使管理人员在问题事件到来时能直观地了解事件对业务服务的影响,而且在业务出现问题时又可快速地定位问题根源组件,极大地提高了工作质量和效率。
2.高开放性与易集成性
具有高度开放性和易集成能力,在数据采集、模型创建、事件转换、事件处理、可视化展现和统计分析等环节都提供用户接口或工具来帮助客户实现自己的个性化监控需求。例如用户能定义自己的事件适配器,从而轻松实现与第三方监控系统的集成。
3.丰富的告警通知方式
系统提供短信、邮件、声光、桌面告警、微信、手机APP端等多种告警通知方式,使告警信息及时准确地送达接受人。
4.多样的监控结果呈现
结果采用简洁美观的图形化界面予以呈现,IT资源健康状况一目了然,帮助管理人员轻松掌控网络运行情况。
1.帮助客户提高故障预警能力,真正做到防患于未然
有效的监控体系设计、复杂告警条件支持、准确有效趋势分析等有助于用户提前发现故障隐患并将之消灭在萌芽状态。
2.帮助客户提高故障响应速度,提升系统可用率
系统强大的关联分析能力和自动关联等技术可帮助管理人员快速定位问题原因和获取问题解决方法,大大降低了故障恢复所需时间。
3.帮助客户避免告警风暴,提高运维工作效率
基于规则的事件处理引擎可有效地对事件进行过滤、压缩和关联,可帮助用户从海量事件中自动寻找有意义的事件,极大地减少管理人员需要面对的事件数量。